Hier ist eine kurze Geschichte über die lineare Diskriminanzanalyse (LDA) als Antwort auf die Frage.
Wenn wir eine Variable und k Gruppen (Klassen) zur Unterscheidung haben, ist dies ANOVA. Die Unterscheidungskraft der Variablen SSzwischen Gruppen/ SSinnerhalb von Gruppen oder B / W .
Wenn wir Variablen haben, ist dies MANOVA. Wenn die Variablen unkorreliert weder insgesamt Probe noch innerhalb der Gruppen sind, dann ist die obige Unterscheidungskraft, B / W , berechnet analog ist , und kann geschrieben werden als t r ein C e ( S b ) / t r a c e ( S w ) , wobei S w die gepoolten within-Gruppe Streumatrix (dh die Summe aus k SSCP Matrizen der Variablen, um die jeweiligen Gruppen Schwerpunkt zentrierten); S bpB / Wt r a c e ( Sb)/ trace( Sw)Swk p x p
Sbist die Zwischengruppen-Streumatrix , wobei S t die Streumatrix für die gesamten Daten ist (SSCP-Matrix der Variablen, die um den Hauptschwerpunkt zentriert sind. (Eine "Streumatrix" ist nur eine Kovarianzmatrix ohne Teilung von sample_size-1.)= St- SwSt
Wenn es eine gewisse Korrelation zwischen den Variablen gibt - und normalerweise gibt es eine -, wird das obige durch S - 1 w S b ausgedrückt, das kein Skalar mehr ist, sondern eine Matrix. Dies liegt einfach daran, dass p diskriminierende Variablen hinter dieser "allgemeinen" Diskriminierung verborgen sind und diese teilweise teilen.B / WS- 1wSbp
Nun möchten wir vielleicht in MANOVA eintauchen und in neue und zueinander orthogonale latente Variablen zerlegen (ihre Anzahl ist m i n ( p , k - 1 ) ), die als Diskriminanzfunktionen oder Diskriminanten bezeichnet werden - wobei die erste die stärkste ist Diskriminator, der zweite ist der nächste, usw. Genau wie wir es in der Pricipal-Komponentenanalyse tun. Wir ersetzen ursprüngliche korrelierte Variablen durch nicht korrelierte Diskriminanten ohne Verlust der Diskriminationskraft. Da jede nächste Diskriminante schwächer und schwächer ist, können wir eine kleine Teilmenge des ersten m akzeptierenS- 1wSbmin(p,k−1)mDiskriminanten ohne großen Verlust an Unterscheidungskraft (ähnlich wie bei der Verwendung von PCA). Dies ist die Essenz von LDA in Bezug auf die Dimensionalitätsreduktionstechnik (LDA ist auch eine Bayes-Klassifikationstechnik, dies ist jedoch ein völlig separates Thema).
LDA ähnelt somit PCA. PCA zersetzt "Korrelation", LDA zersetzt "Separation". In LDA wird ein algebraischer Bypass-Trick verwendet, um seine Eigenwerte und Eigenvektoren 1 zu finden, da die obige Matrix, die "Separiertheit" ausdrückt, nicht symmetrisch ist . Der Eigenwert jeder Diskriminanzfunktion (eine latente Variable) ist ihre Diskriminanzstärke B / W , über die ich im ersten Absatz gesprochen habe. Erwähnenswert ist auch, dass Diskriminanten, auch wenn sie nicht korreliert sind, geometrisch nicht orthogonal zu Achsen sind, die im ursprünglichen variablen Raum gezeichnet wurden .1B/W
Einige potenziell verwandte Themen, die Sie möglicherweise lesen möchten:
LDA ist MANOVA "vertieft" in die Analyse latenter Strukturen und ist ein besonderer Fall der kanonischen Korrelationsanalyse (exakte Äquivalenz zwischen ihnen als solchen ).
Wie klassifiziert LDA Objekte und welche Fisher-Koeffizienten gibt es? (Ich verlinke derzeit nur auf meine eigenen Antworten, da ich mich an sie erinnere, aber es gibt auch viele gute und bessere Antworten von anderen Leuten auf dieser Seite).
LDA-Extraktionsphasenberechnungenlauten wie folgt. Eigenwerte ( L ) von S - 1 w S b sind die gleichen wie für die symmetrische Matrix ( U - 1 ) ' S b U - 1 , wobei U dieCholesky-Wurzelvon S w ist : eine obere Dreiecksmatrix, wobei U ' U = S w . Die Eigenvektoren von S - 1 w S b sind durch V gegeben1 LS−1wSb(U−1)′SbU−1USwU′U=SwS−1wSb , wobei E die Eigenvektoren der obigen Matrix ( U - 1 ) ' S b U - 1 sind . (Hinweis: Da U dreieckig ist,kann esunter Verwendung einereinfachenSprache schnellerinvertiertwerden als mit einer generischen Standardfunktion "inv" von Paketen.)V=U−1EE(U−1)′SbU−1U
Die beschriebene Workaround-eigendecomposition-of- -Methode wird in einigen Programmen (zum Beispiel in SPSS) realisiert, während in anderen Programmen eine "Quasi-Zca-Whitening" -Methode realisiert wird, die nur etwas langsamer ist , gibt die gleichen Ergebnisse und wird an anderer Stelle beschrieben . Zusammenfassend es hier: erhalten ZCA-Whitening - Matrix für S w - die symmetrische sq Wurzel. S - 1 / 2 w (was durch Eigenzerlegung durchgeführt wird); dann Eigendekomposition von S - 1 / 2 w S B S - 1 /S−1wSbSwS−1/2w (was eine symmetrische Matrix ist) Diskriminante Eigenwerte ergibtLund EigenvektorenA, wobei die Diskriminanzfunktionen EigenvektorenV=S - 1 / 2 w A. Die „quasi ZCA-Bleaching“ Methode kann neu geschrieben werdenanstatt zu arbeiten mit mittels Singulärwertzerlegung von Casewise Datensatz durchgeführt wirdSwundSbscatter Matrices; Dies erhöht die Rechenpräzision (was in einer Situation nahe der Singularität wichtig ist), beeinträchtigt jedoch die Geschwindigkeit.S−1/2wSbS−1/2wLAV=S−1/2wASwSb
OK, wenden wir uns den Statistiken zu, die normalerweise in LDA berechnet werden. Kanonische Korrelationen , die den Eigenwerten entsprechen, sind . Während der Eigenwert einer DiskriminanteB/Wder ANOVA dieser Diskriminante ist, ist das kanonische KorrelationsquadratB/T(T = Gesamtsumme der Quadrate) dieser ANOVA.Γ=L/(L+1)−−−−−−−−−√B/WB/T
Wenn Sie die Spalten der Eigenvektoren normalisieren (auf SS = 1), können diese Werte als Richtungskosinus der Drehung von Achsenvariablen in Achsendiskriminanten betrachtet werden. man kann so mit ihrer Hilfe plotten (, die Eigenvektoren als Achsen in diesem Raum Variablen, nicht orthogonal sind) durch die ursprünglichen Variablen definiert als Diskriminanten Achsen auf dem Streudiagramm.V
Die nicht standardisierten Diskriminanzkoeffizienten oder -gewichte sind einfach die skalierten Eigenvektoren . Dies sind die linearen Vorhersagekoeffizienten von Diskriminanten durch die zentrierten ursprünglichen Variablen. Die Werte der Diskriminanzfunktionen selbst (Diskriminanzbewertungen) sindXC, wobeiXdie zentrierten ursprünglichen Variablen sind (Eingabe multivariater Daten mit jeder zentrierten Spalte). Diskriminanten sind nicht korreliert. Und wenn sie nach der obigen Formel berechnet werden, haben sie auch die Eigenschaft, dass ihre innerhalb der Klasse zusammengefasste Kovarianzmatrix die Identitätsmatrix ist.C=N−k−−−−−√ VXCX
Optional konstante Ausdrücke die nicht standardisierten Koeffizienten Begleit- und damit zu un-Zentrum der Diskriminanten , wenn die Eingangsvariablen ungleich null Mittel hatten sind , wobei d i ein g ( ˉ X ) ist die Diagonalmatrix der p Variablen bedeutet und ∑ p ist die Summe über die Variablen.C0=−∑pdiag(X¯)Cdiag(X¯)∑p
Bei standardisierten Diskriminanzkoeffizienten wird der Beitrag von Variablen zu einer Diskriminante an die Tatsache angepasst, dass Variablen unterschiedliche Varianzen aufweisen und in unterschiedlichen Einheiten gemessen werden können. (wobei diag (SW) Diagonalmatrix mit den Diagonalen desSw). Obwohl diese Koeffizienten "standardisiert" sind, können sie gelegentlich 1 überschreiten (also nicht verwechseln). Wenn die Eingabevariablen innerhalb jeder Klasse separat z-standardisiert wurden, sind standardisierte Koeffizienten = nicht standardisierte. Koeffizienten können verwendet werden, um Diskriminanten zu interpretieren.K=diag(Sw)−−−−−−−−√VSw
Gepoolte innerhalb Gruppe Korrelationen ( "Strukturmatrix", manchmal auch als Beladungen) zwischen Variablen und Diskriminanten sind gegeben durch . Korrelationen sind unempfindlich gegenüber Kollinearitätsproblemen und stellen eine alternative (zu den Koeffizienten) Anleitung zur Bewertung der Beiträge von Variablen und zur Interpretation von Diskriminanten dar.R=diag(Sw)−1SwV
Siehe die vollständige Ausgabe der Extraktionsphase der Diskriminanzanalyse von Irisdaten hier .
Lesen Sie diese nette spätere Antwort, die etwas formeller und detaillierter erklärt, was ich hier getan habe.
Diese Frage befasst sich mit der Frage der Standardisierung von Daten vor der Durchführung von LDA.