Wie AdamO im obigen Kommentar vorschlägt, können Sie nichts Besseres tun, als Kapitel 4 der Elemente des statistischen Lernens (das ich HTF nennen werde) zu lesen, in dem LDA mit anderen linearen Klassifizierungsmethoden verglichen wird, wobei viele Beispiele angegeben und auch die Verwendung erörtert werden von LDA als Dimensionsreduktionstechnik im Sinne von PCA, die, wie ttnphns hervorhebt, ziemlich beliebt ist.
Unter dem Gesichtspunkt der Klassifizierung denke ich, dass der Hauptunterschied dies ist. Stellen Sie sich vor, Sie haben zwei Klassen und möchten diese trennen. Jede Klasse hat eine Wahrscheinlichkeitsdichtefunktion. Die bestmögliche Situation wäre, wenn Sie diese Dichtefunktionen kennen, denn dann könnten Sie vorhersagen, zu welcher Klasse ein Punkt gehören würde, indem Sie die klassenspezifischen Dichten an diesem Punkt bewerten.
Einige Arten von Klassifikatoren arbeiten, indem sie eine Annäherung an die Dichtefunktionen der Klassen finden. LDA ist eine davon; es wird angenommen, dass die Dichten mit derselben Kovarianzmatrix multivariat normal sind. Dies ist eine starke Annahme, aber wenn es ungefähr richtig ist, erhalten Sie einen guten Klassifikator. Viele andere Klassifikatoren verfolgen ebenfalls diesen Ansatz, versuchen jedoch, flexibler zu sein, als Normalität anzunehmen. Siehe beispielsweise Seite 108 von HTF.
Auf der anderen Seite warnt HTF auf Seite 210:
Wenn die Klassifizierung das ultimative Ziel ist, kann es unnötig sein, die einzelnen Klassendichten gut zu lernen, und dies kann tatsächlich irreführend sein.
Ein anderer Ansatz besteht einfach darin, nach einer Grenze zwischen den beiden Klassen zu suchen, was das Perzeptron tut. Eine anspruchsvollere Version davon ist die Support-Vektor-Maschine. Diese Methoden können auch mit dem Hinzufügen von Features zu den Daten mithilfe einer als Kernelisierung bezeichneten Technik kombiniert werden. Dies funktioniert nicht mit LDA, da die Normalität nicht erhalten bleibt, aber es ist kein Problem für einen Klassifizierer, der nur nach einer trennenden Hyperebene sucht.
Der Unterschied zwischen LDA und einem Klassifikator, der nach einer trennenden Hyperebene sucht, ist wie der Unterschied zwischen einem t-Test und einer nichtparameterischen Alternative in der normalen Statistik. Letzteres ist robuster (zum Beispiel für Ausreißer), aber Ersteres ist optimal, wenn seine Annahmen erfüllt sind.
Noch eine Bemerkung: Es könnte erwähnenswert sein, dass einige Menschen kulturelle Gründe für die Verwendung von Methoden wie LDA oder logistischer Regression haben, die ANOVA-Tabellen, Hypothesentests und beruhigende Dinge wie diese verbindlich ausspucken können. LDA wurde von Fisher erfunden; Das Perzeptron war ursprünglich ein Modell für ein menschliches oder tierisches Neuron und hatte keinen Zusammenhang mit Statistiken. Es funktioniert auch umgekehrt; Einige Leute bevorzugen vielleicht Methoden wie Support-Vektor-Maschinen, weil sie die Art von Hipster-Credo haben, mit der Methoden des 20. Jahrhunderts einfach nicht mithalten können. Das bedeutet nicht, dass sie besser sind. (Ein gutes Beispiel dafür finden Sie in Maschinelles Lernen für Hacker , wenn ich mich richtig erinnere.)