Wenn die Klassen gut voneinander getrennt sind, sind die Parameterschätzungen für die logistische Regression überraschend instabil. Koeffizienten können bis unendlich gehen. LDA leidet nicht unter diesem Problem.
Wenn es kovariate Werte gibt, die das binäre Ergebnis perfekt vorhersagen können, konvergiert der Algorithmus der logistischen Regression, dh das Fisher-Scoring, nicht einmal. Wenn Sie R oder SAS verwenden, erhalten Sie eine Warnung, dass Wahrscheinlichkeiten von Null und Eins berechnet wurden und der Algorithmus abgestürzt ist. Dies ist der Extremfall einer perfekten Trennung, aber selbst wenn die Daten nur zu einem großen Teil und nicht perfekt getrennt sind, existiert der Maximum-Likelihood-Schätzer möglicherweise nicht, und selbst wenn er existiert, sind die Schätzungen nicht zuverlässig. Die resultierende Passform ist überhaupt nicht gut. Auf dieser Seite gibt es viele Themen, die sich mit dem Problem der Trennung befassen.
Im Gegensatz dazu stößt man bei Fisher-Diskriminanten nicht oft auf Schätzungsprobleme. Es kann immer noch vorkommen, dass entweder die Kovarianzmatrix zwischen oder innerhalb der Kovarianzmatrix singulär ist, aber dies ist ein eher seltener Fall. In der Tat ist es umso besser, wenn eine vollständige oder quasi vollständige Trennung vorliegt, da die Diskriminante mit größerer Wahrscheinlichkeit erfolgreich ist.
Erwähnenswert ist auch, dass LDA entgegen der landläufigen Meinung keine Verteilungsannahmen zugrunde legt. Wir fordern implizit nur die Gleichheit der Populations-Kovarianzmatrizen, da ein gepoolter Schätzer für die innere Kovarianzmatrix verwendet wird. Unter den zusätzlichen Annahmen von Normalität, gleichen vorherigen Wahrscheinlichkeiten und Fehlklassifizierungskosten ist die LDA in dem Sinne optimal, dass sie die Wahrscheinlichkeit einer Fehlklassifizierung minimiert.
Wie liefert LDA niedrig dimensionale Ansichten?
Dies ist bei zwei Populationen und zwei Variablen leichter zu erkennen. Hier ist eine bildliche Darstellung, wie LDA in diesem Fall funktioniert. Denken Sie daran, dass wir nach linearen Kombinationen der Variablen suchen , die die Trennbarkeit maximieren.
Daher werden die Daten auf den Vektor projiziert, dessen Richtung diese Trennung besser erreicht. Wie wir feststellen, dass der Vektor ein interessantes Problem der linearen Algebra ist, maximieren wir im Grunde genommen einen Rayleigh-Quotienten, lassen dies aber zunächst beiseite. Wenn die Daten auf diesen Vektor projiziert werden, wird die Bemaßung von zwei auf eins reduziert.
Der allgemeine Fall von mehr als zwei Populationen und Variablen wird ähnlich behandelt. Wenn die Bemaßung groß ist, werden linearere Kombinationen verwendet, um sie zu reduzieren. In diesem Fall werden die Daten auf Ebenen oder Hyperebenen projiziert. Es gibt natürlich eine Grenze für die Anzahl der Linearkombinationen, die sich aus der ursprünglichen Dimension der Daten ergibt. Wenn wir die Anzahl der Prädiktorvariablen mit und die Anzahl der Populationen mit g bezeichnen , stellt sich heraus, dass die Anzahl höchstens min beträgt ( g - 1 , p ).pg min(g−1,p) .
Wenn Sie mehr Vor- oder Nachteile nennen können, wäre das schön.
Die niederdimensionale Darstellung ist jedoch nicht ohne Nachteile, wobei der wichtigste natürlich der Informationsverlust ist. Dies ist weniger problematisch, wenn die Daten vorliegen linear trennbar sind, aber wenn dies nicht der Fall ist, kann der Informationsverlust erheblich sein und der Klassifikator wird eine schlechte Leistung erbringen.
Es kann auch Fälle geben, in denen die Gleichheit von Kovarianzmatrizen möglicherweise keine verlässliche Annahme ist. Sie können einen Test anwenden, um sicherzustellen, dass diese Tests sehr empfindlich auf Abweichungen von der Normalität reagieren. Daher müssen Sie diese zusätzliche Annahme treffen und auch testen. Wenn sich herausstellt, dass die Populationen normal sind und ungleiche Kovarianzmatrizen aufweisen, könnte stattdessen eine quadratische Klassifizierungsregel (QDA) verwendet werden, aber ich finde, dass dies eine ziemlich umständliche Regel ist, ganz zu schweigen von der Tatsache, dass sie in hohen Dimensionen nicht intuitiv ist.
Insgesamt ist der Hauptvorteil der LDA das Vorhandensein einer expliziten Lösung und deren Rechenfreundlichkeit, was bei fortgeschritteneren Klassifizierungstechniken wie SVM oder neuronalen Netzen nicht der Fall ist. Der Preis, den wir zahlen, sind die dazugehörigen Annahmen, nämlich die lineare Trennbarkeit und die Gleichheit der Kovarianzmatrizen.
Hoffe das hilft.
EDIT : Ich vermute, dass meine Behauptung, dass die LDA für die von mir genannten spezifischen Fälle keine anderen Verteilungsannahmen erfordert als die Gleichheit der Kovarianzmatrizen, mich eine Ablehnung gekostet hat. Dies ist jedoch nicht weniger wahr, lassen Sie mich genauer sein.
x¯i, i=1,2Spooled
maxa(aTx¯1−aTx¯2)2aTSpooleda=maxa(aTd)2aTSpooleda
Die Lösung dieses Problems (bis zu einer Konstanten) kann gezeigt werden
a=S−1pooledd=S−1pooled(x¯1−x¯2)
Dies entspricht der LDA, die Sie unter der Annahme von Normalität, gleichen Kovarianzmatrizen, Fehlklassifizierungskosten und vorherigen Wahrscheinlichkeiten ableiten, richtig? Na ja, außer jetzt, wo wir keine Normalität angenommen haben.
Es gibt nichts, was Sie davon abhält, die oben genannte Diskriminante in allen Einstellungen zu verwenden, selbst wenn die Kovarianzmatrizen nicht wirklich gleich sind. Es ist möglicherweise nicht optimal im Sinne der zu erwartenden Fehlklassifizierungskosten (ECM), aber dies wird überwacht gelernt, sodass Sie die Leistung immer beurteilen können, z. B. mithilfe des Hold-out-Verfahrens.
Verweise
Bischof Christopher M. Neuronale Netze zur Mustererkennung. Oxford University Press, 1995.
Johnson, Richard Arnold und Dean W. Wichern. Angewandte multivariate statistische Analyse. Vol. 4. Englewood Cliffs, NJ: Prentice Hall, 1992.