In einer Nussschale
Sowohl Einweg-MANOVA als auch LDA beginnen mit der Zerlegung der Gesamtstreumatrix in die klasseninterne Streumatrix W und die klassenübergreifende Streumatrix B , so dass T = W + B ist . Man beachte , daß dies völlig analog ist , wie Einweg-ANOVA Gesamt zersetzt sum-of-Squares - T in within-Klasse und zwischen Klasse Summen der Quadrate: T = B + W . In ANOVA wird dann ein Verhältnis B / W berechnet und verwendet, um den p-Wert zu finden: Je größer dieses Verhältnis ist, desto kleiner ist der p-Wert. MANOVA und LDA bilden eine analoge multivariate Größe W - 1TWBT = W + BTT= B + WB / W .W- 1B
Ab hier sind sie anders. Der einzige Zweck von MANOVA besteht darin, zu testen, ob die Mittelwerte aller Gruppen gleich sind. Diese Nullhypothese würde bedeuten, dass eine ähnliche Größe wie W haben sollte . MANOVA führt also eine erneute Zerlegung von W - 1 B durch und findet seine Eigenwerte λ i . Die Idee ist nun zu testen, ob sie groß genug sind, um die Null abzulehnen. Es gibt vier gebräuchliche Wege, um aus der gesamten Menge von Eigenwerten λ i eine skalare Statistik zu bilden . Eine Möglichkeit besteht darin, die Summe aller Eigenwerte zu berechnen. Ein anderer Weg ist, den maximalen Eigenwert zu nehmen. In jedem Fall wird die Nullhypothese verworfen, wenn die gewählte Statistik groß genug ist.BWW- 1Bλichλich
Im Gegensatz dazu führt LDA eine erneute Zerlegung von und betrachtet die Eigenvektoren (nicht Eigenwerte). Diese Eigenvektoren definieren Richtungen im variablen Raum und werden Diskriminanzachsen genannt . Die Projektion der Daten auf die erste Diskriminanzachse weist eine Trennung der höchsten Klasse auf (gemessen als S / W ); auf die zweite - zweithöchste; usw. Wenn LDA zur Dimensionsreduzierung verwendet wird, können die Daten z. B. auf die ersten beiden Achsen projiziert werden, und die übrigen werden verworfen.W- 1BB / W
Siehe auch eine ausgezeichnete Antwort von @ttnphns in einem anderen Thread, der fast den gleichen Grund abdeckt.
Beispiel
Betrachten wir einen Einwegfall mit abhängigen Variablen und k = 3 Beobachtungsgruppen (dh einen Faktor mit drei Ebenen). Ich nehme den bekannten Fisher's Iris-Datensatz und betrachte nur die Kelchblattlänge und die Kelchblattbreite (zweidimensional). Hier ist das Streudiagramm:M= 2k = 3
F2 , 147= 119p = 10- 31F2 , 147= 49p = 10- 17
TWB = T - WW- 1B
Gestrichelte Linien sind diskriminierende Achsen. Ich habe sie mit willkürlichen Längen gezeichnet, aber die längere Achse zeigt den Eigenvektor mit größerem Eigenwert (4.1) und den kürzeren - den mit kleinerem Eigenwert (0.02). Beachten Sie, dass sie nicht orthogonal sind, aber die Mathematik von LDA garantiert, dass die Projektionen auf diesen Achsen keine Korrelation aufweisen.
F= 305p = 10- 53p = 10- 5
W-1BB / WF= B / W⋅ ( N- k ) / ( k - 1 ) = 4,1 ⋅ 147 / 2 = 305N= 150k = 3
λ1= 4,1λ2= 0,02p = 10- 55
F( 8 , 4 )
p = 10- 55p = 0,26p=10−54∼5p≈0.05p
MANOVA vs LDA als maschinelles Lernen vs. Statistik
Dies scheint mir nun einer der beispielhaften Fälle zu sein, in denen unterschiedliche Communitys für maschinelles Lernen und Statistik dieselbe Vorgehensweise verfolgen. Jedes Lehrbuch über maschinelles Lernen behandelt LDA, zeigt schöne Bilder usw., aber es würde nicht einmal MANOVA erwähnen (zB Bishop , Hastie und Murphy ). Wahrscheinlich, weil die Leute dort mehr an der Genauigkeit der LDA- Klassifizierung interessiert sind (was ungefähr der Effektgröße entspricht) und kein Interesse an der statistischen Signifikanz der Gruppendifferenz haben. Auf der anderen Seite würden Lehrbücher zur multivariaten Analyse MANOVA ad nauseam diskutieren, viele tabellarische Daten liefern (arrrgh), aber LDA selten erwähnen und noch seltener irgendwelche Diagramme zeigen (z. B.Anderson oder Harris ; jedoch Rencher & Christensen zu tun und Huberty & Olejnik wird auch „MANOVA und Diskriminanzanalyse“) genannt.
Factorial MANOVA
Die faktorielle MANOVA ist viel verwirrender, aber interessant zu betrachten, da sie sich von der LDA dahingehend unterscheidet, dass die "faktorielle LDA" nicht wirklich existiert und die faktorielle MANOVA keiner "üblichen LDA" direkt entspricht.
3⋅2=6
In dieser Abbildung sind alle sechs "Zellen" (ich werde sie auch "Gruppen" oder "Klassen" nennen) gut voneinander getrennt, was in der Praxis natürlich selten vorkommt. Beachten Sie, dass es hier offensichtlich signifikante Haupteffekte beider Faktoren und auch signifikante Interaktionseffekte gibt (da die obere rechte Gruppe nach rechts verschoben ist; wenn ich sie in ihre "Gitter" -Position verschieben würde, gäbe es keine Interaktionseffekt).
Wie funktionieren MANOVA-Berechnungen in diesem Fall?
WBABAW−1BA
BBBAB
T=BA+BB+BAB+W.
Bkann nicht eindeutig in eine Summe von drei Faktorbeiträgen zerlegt werden, da die Faktoren nicht mehr orthogonal sind; Dies ähnelt der Diskussion von Typ I / II / III SS in ANOVA.]
BAWA=T−BA
W−1BA