Algebra der LDA. Fisher Diskriminanzstärke einer variablen und linearen Diskriminanzanalyse

Offenbar,

Die Fisher-Analyse zielt darauf ab, gleichzeitig die Trennung zwischen den Klassen zu maximieren und gleichzeitig die Streuung innerhalb der Klassen zu minimieren. Ein nützliches Maß für das Unterscheidungsvermögen einer Variablen ist daher die Diagonalengröße: $B_{ii}/W_{ii}$ .

http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html

Ich verstehe, dass die Größe ( p x p) der Matrizen zwischen ( B ) und innerhalb der Klasse ( W ) durch die Anzahl der Eingabevariablen gegeben ist p. Wie kann $B_{ii}/W_{ii}$ Hintergrund ein "nützliches Maß für die Unterscheidungskraft" einer einzelnen Variablen sein? Es sind mindestens zwei Variablen erforderlich, um die Matrizen B und W zu konstruieren, sodass die jeweiligen Spuren mehr als eine Variable darstellen würden.

Update: Habe ich Recht zu denken, dass $B_{ii}/W_{ii}$ keine Spur über einer Spur ist, in der die Summe impliziert ist, sondern das Matrixelement $B_{ii}$ dividiert durch $W_{ii}$ ? Derzeit ist dies die einzige Möglichkeit, den Ausdruck mit dem Konzept in Einklang zu bringen.

— Kategorie
quelle

Hier ist eine kurze Geschichte über die lineare Diskriminanzanalyse (LDA) als Antwort auf die Frage.

Wenn wir eine Variable und $k$ Gruppen (Klassen) zur Unterscheidung haben, ist dies ANOVA. Die Unterscheidungskraft der Variablen $SS_\text{between groups} / SS_\text{within groups}$ oder $B/W$ .

Wenn wir Variablen haben, ist dies MANOVA. Wenn die Variablen unkorreliert weder insgesamt Probe noch innerhalb der Gruppen sind, dann ist die obige Unterscheidungskraft, , berechnet analog ist , und kann geschrieben werden als , wobei die gepoolten within-Gruppe Streumatrix (dh die Summe aus SSCP Matrizen der Variablen, um die jeweiligen Gruppen Schwerpunkt zentrierten); $p$ $B/W$ $trace(\bf{S_b})$ $/trace(\bf{S_w})$ $\bf{S_w}$ $k$ p x p $\bf{S_b}$ ist die Zwischengruppen-Streumatrix , wobei die Streumatrix für die gesamten Daten ist (SSCP-Matrix der Variablen, die um den Hauptschwerpunkt zentriert sind. (Eine "Streumatrix" ist nur eine Kovarianzmatrix ohne Teilung von sample_size-1.) $=\bf{S_t}-\bf{S_w}$ $\bf{S_t}$

Wenn es eine gewisse Korrelation zwischen den Variablen gibt - und normalerweise gibt es eine -, wird das obige durch ausgedrückt, das kein Skalar mehr ist, sondern eine Matrix. Dies liegt einfach daran, dass diskriminierende Variablen hinter dieser "allgemeinen" Diskriminierung verborgen sind und diese teilweise teilen. $B/W$ $\bf{S_w^{-1} S_b}$ $p$

Nun möchten wir vielleicht in MANOVA eintauchen und in neue und zueinander orthogonale latente Variablen zerlegen (ihre Anzahl ist ), die als Diskriminanzfunktionen oder Diskriminanten bezeichnet werden - wobei die erste die stärkste ist Diskriminator, der zweite ist der nächste, usw. Genau wie wir es in der Pricipal-Komponentenanalyse tun. Wir ersetzen ursprüngliche korrelierte Variablen durch nicht korrelierte Diskriminanten ohne Verlust der Diskriminationskraft. Da jede nächste Diskriminante schwächer und schwächer ist, können wir eine kleine Teilmenge des ersten akzeptieren $\bf{S_w^{-1} S_b}$ $min(p,k-1)$ $m$ Diskriminanten ohne großen Verlust an Unterscheidungskraft (ähnlich wie bei der Verwendung von PCA). Dies ist die Essenz von LDA in Bezug auf die Dimensionalitätsreduktionstechnik (LDA ist auch eine Bayes-Klassifikationstechnik, dies ist jedoch ein völlig separates Thema).

LDA ähnelt somit PCA. PCA zersetzt "Korrelation", LDA zersetzt "Separation". In LDA wird ein algebraischer Bypass-Trick verwendet, um seine Eigenwerte und Eigenvektoren zu finden, da die obige Matrix, die "Separiertheit" ausdrückt, nicht symmetrisch ist . Der Eigenwert jeder Diskriminanzfunktion (eine latente Variable) ist ihre Diskriminanzstärke , über die ich im ersten Absatz gesprochen habe. Erwähnenswert ist auch, dass Diskriminanten, auch wenn sie nicht korreliert sind, geometrisch nicht orthogonal zu Achsen sind, die im ursprünglichen variablen Raum gezeichnet wurden . $^1$ $B/W$

Einige potenziell verwandte Themen, die Sie möglicherweise lesen möchten:

LDA ist MANOVA "vertieft" in die Analyse latenter Strukturen und ist ein besonderer Fall der kanonischen Korrelationsanalyse (exakte Äquivalenz zwischen ihnen als solchen ). Wie klassifiziert LDA Objekte und welche Fisher-Koeffizienten gibt es? (Ich verlinke derzeit nur auf meine eigenen Antworten, da ich mich an sie erinnere, aber es gibt auch viele gute und bessere Antworten von anderen Leuten auf dieser Seite).

LDA-Extraktionsphasenberechnungenlauten wie folgt. Eigenwerte ( ) von sind die gleichen wie für die symmetrische Matrix , wobei dieCholesky-Wurzelvon : eine obere Dreiecksmatrix, wobei . Die Eigenvektoren von sind durch $^1$ $\bf L$ $\bf{S_w^{-1} S_b}$ $\bf{(U^{-1})' S_b U^{-1}}$ $\bf U$ $\bf{S_w}$ $\bf{U'U=S_w}$ $\bf{S_w^{-1} S_b}$ , wobei die Eigenvektoren der obigen Matrix . (Hinweis: Da dreieckig ist,kann esunter Verwendung einereinfachenSprache schnellerinvertiertwerden als mit einer generischen Standardfunktion "inv" von Paketen.) $\bf{V=U^{-1} E}$ $\bf E$ $\bf{(U^{-1})' S_b U^{-1}}$ $\bf U$

Die beschriebene Workaround-eigendecomposition-of- -Methode wird in einigen Programmen (zum Beispiel in SPSS) realisiert, während in anderen Programmen eine "Quasi-Zca-Whitening" -Methode realisiert wird, die nur etwas langsamer ist , gibt die gleichen Ergebnisse und wird an anderer Stelle beschrieben . Zusammenfassend es hier: erhalten ZCA-Whitening - Matrix für - die symmetrische sq Wurzel. (was durch Eigenzerlegung durchgeführt wird); dann Eigendekomposition von $\bf{S_w^{-1} S_b}$ $\bf{S_w}$ $\bf S_w^{-1/2}$ (was eine symmetrische Matrix ist) Diskriminante Eigenwerte ergibtund Eigenvektoren, wobei die Diskriminanzfunktionen Eigenvektoren. Die „quasi ZCA-Bleaching“ Methode kann neu geschrieben werdenanstatt zu arbeiten mit mittels Singulärwertzerlegung von Casewise Datensatz durchgeführt wirdundscatter Matrices; Dies erhöht die Rechenpräzision (was in einer Situation nahe der Singularität wichtig ist), beeinträchtigt jedoch die Geschwindigkeit. $\bf S_w^{-1/2} S_b S_w^{-1/2}$ $\bf L$ $\bf A$ $\bf V= S_w^{-1/2} A$ $\bf S_w$ $\bf S_b$

OK, wenden wir uns den Statistiken zu, die normalerweise in LDA berechnet werden. Kanonische Korrelationen , die den Eigenwerten entsprechen, sind . Während der Eigenwert einer Diskriminanteder ANOVA dieser Diskriminante ist, ist das kanonische Korrelationsquadrat(T = Gesamtsumme der Quadrate) dieser ANOVA. $\bf \Gamma = \sqrt{L/(L+1)}$ $B/W$ $B/T$

Wenn Sie die Spalten der Eigenvektoren normalisieren (auf SS = 1), können diese Werte als Richtungskosinus der Drehung von Achsenvariablen in Achsendiskriminanten betrachtet werden. man kann so mit ihrer Hilfe plotten (, die Eigenvektoren als Achsen in diesem Raum Variablen, nicht orthogonal sind) durch die ursprünglichen Variablen definiert als Diskriminanten Achsen auf dem Streudiagramm. $\bf V$

Die nicht standardisierten Diskriminanzkoeffizienten oder -gewichte sind einfach die skalierten Eigenvektoren . Dies sind die linearen Vorhersagekoeffizienten von Diskriminanten durch die zentrierten ursprünglichen Variablen. Die Werte der Diskriminanzfunktionen selbst (Diskriminanzbewertungen) sind, wobeidie zentrierten ursprünglichen Variablen sind (Eingabe multivariater Daten mit jeder zentrierten Spalte). Diskriminanten sind nicht korreliert. Und wenn sie nach der obigen Formel berechnet werden, haben sie auch die Eigenschaft, dass ihre innerhalb der Klasse zusammengefasste Kovarianzmatrix die Identitätsmatrix ist. $\bf {C}= \it \sqrt{N-k} ~\bf V$ $\bf XC$ $\bf X$

Optional konstante Ausdrücke die nicht standardisierten Koeffizienten Begleit- und damit zu un-Zentrum der Diskriminanten , wenn die Eingangsvariablen ungleich null Mittel hatten sind , wobei ist die Diagonalmatrix der p Variablen bedeutet und ist die Summe über die Variablen. $\bf {C_0} \it = -\sum^p diag(\bar{X}) \bf C$ $diag(\bar{X})$ $\sum^p$

Bei standardisierten Diskriminanzkoeffizienten wird der Beitrag von Variablen zu einer Diskriminante an die Tatsache angepasst, dass Variablen unterschiedliche Varianzen aufweisen und in unterschiedlichen Einheiten gemessen werden können. (wobei diag (SW) Diagonalmatrix mit den Diagonalen des). Obwohl diese Koeffizienten "standardisiert" sind, können sie gelegentlich 1 überschreiten (also nicht verwechseln). Wenn die Eingabevariablen innerhalb jeder Klasse separat z-standardisiert wurden, sind standardisierte Koeffizienten = nicht standardisierte. Koeffizienten können verwendet werden, um Diskriminanten zu interpretieren. $\bf {K} \it = \sqrt{diag \bf (S_w)} \bf V$ $\bf S_w$

Gepoolte innerhalb Gruppe Korrelationen ( "Strukturmatrix", manchmal auch als Beladungen) zwischen Variablen und Diskriminanten sind gegeben durch . Korrelationen sind unempfindlich gegenüber Kollinearitätsproblemen und stellen eine alternative (zu den Koeffizienten) Anleitung zur Bewertung der Beiträge von Variablen und zur Interpretation von Diskriminanten dar. $\bf R= \it diag \bf (S_w)^{-1} \bf S_w V$

Siehe die vollständige Ausgabe der Extraktionsphase der Diskriminanzanalyse von Irisdaten hier .

Lesen Sie diese nette spätere Antwort, die etwas formeller und detaillierter erklärt, was ich hier getan habe.

Diese Frage befasst sich mit der Frage der Standardisierung von Daten vor der Durchführung von LDA.

— ttnphns
quelle

X

$X$

Ja. Das Wort "Fischers Ansatz" ist jedoch nicht eindeutig. Es kann 2 Dinge bedeuten: 1) LDA (für 2 Klassen) selbst ; 2) Fisher's Klassifizierungsfunktionen in LDA.

— TTNPHNS