SVD
Singularwertzerlegung ist die Wurzel der drei verwandten Techniken. Let sei Tabelle von realen Werten. SVD ist . Wir können nur erste latente Vektoren und Wurzeln verwenden, um als die beste Rang-Approximation von : . Außerdem notieren wir , , .Xr×cX=Ur×rSr×cV′c×cm [m≤min(r,c)]X(m)mXX(m)=Ur×mSm×mV′c×mU=Ur×mV=Vc×mS=Sm×m
Singularwerte und ihre Quadrate, die Eigenwerte, repräsentieren den Maßstab der Daten , auch Trägheit genannt . Linke Eigenvektoren sind die Koordinaten der Datenzeilen auf den Hauptachsen; während rechte Eigenvektoren die Koordinaten der auf denselben latenten Achsen sind. Die gesamte Skala (Trägheit) wird in gespeichert, und daher werden die Koordinaten und in Einheiten normiert (Spalte SS = 1).SUmVSUV
Hauptkomponentenanalyse durch SVD
In PCA wird vereinbart, Zeilen von als zufällige Beobachtungen (die kommen oder gehen können) zu betrachten, Spalten von als feste Anzahl von Dimensionen oder Variablen. Daher ist es angebracht und zweckmäßig, die Auswirkung der Anzahl der Zeilen (und nur der Zeilen) auf die Ergebnisse, insbesondere auf die Eigenwerte, durch svd-Zerlegung von anstelle von zu entfernen. . Beachten Sie, dass dies einer von , wobei die Stichprobengröße ist . (Meistens mit Kovarianzen - um sie unvoreingenommen zu machen - werden wir es vorziehen, durch zu teilen , aber es ist eine Nuance.)XXZ=X/r√XX′X/rrn
r−1
Die Multiplikation von mit einer Konstanten betrifft nur ; und bleiben die in Einheiten normierten Koordinaten von Zeilen und Spalten.XSUV
Von hier und überall unten definieren wir , und wie es durch svd von , nicht von ; ist eine normalisierte Version von , und die Normalisierung variiert zwischen den Analysetypen.SUVZXZX
Durch Multiplikation von bringen wir das mittlere Quadrat in den Spalten von auf 1. Da Zeilen für uns Zufallsfälle sind, ist es logisch. Auf diese Weise haben wir die im PCA- Standard oder in standardisierten Hauptkomponenten genannten Punktzahlen für Beobachtungen erhalten, . Mit wir nicht dasselbe, weil Variablen feste Entitäten sind.Ur√=U∗UU∗V
Wir können dann verleihen Reihen mit allen Trägheit, unstandardized Zeilenkoordinaten zu erhalten, auch in PCA genannt rohen Hauptbestandteilswerte von Beobachtungen: . Diese Formel nennen wir "direkten Weg". Das gleiche Ergebnis wird von ; wir werden es als "indirekter Weg" bezeichnen.U∗SXV
Analog können wir Spalten mit der gesamten Trägheit zuweisen, um nicht standardisierte Spaltenkoordinaten zu erhalten, die in PCA auch als komponentenvariable Ladungen bezeichnet werden : [kann die Transponierung ignorieren, wenn quadratisch ist], - der "direkte Weg". Das gleiche Ergebnis , - der "indirekte Weg". (Die obigen standardisierten Hauptkomponentenbewertungen können auch aus den Ladungen als berechnet werden , wobei die Ladungen sind.)VS′SZ′UX(AS−1/2)A
Biplot
Betrachten Sie Biplot im Sinne einer Dimensionsreduktionsanalyse für sich, nicht einfach als "Dual Scatterplot". Diese Analyse ist der PCA sehr ähnlich. Im Gegensatz zu PCA werden sowohl Zeilen als auch Spalten symmetrisch als zufällige Beobachtungen behandelt, was bedeutet, dass als zufällige Zwei-Wege-Tabelle mit unterschiedlicher Dimension betrachtet wird. Dann natürlich normalisieren sie durch sowohl und vor SVD: .X rcZ=X/rc−−√
Berechnen Sie nach svd die Standardzeilenkoordinaten wie in PCA beschrieben: . Machen Sie dasselbe (im Gegensatz zu PCA) mit Spaltenvektoren, um Standardspaltenkoordinaten zu erhalten : . Standardkoordinaten von Zeilen und Spalten haben das mittlere Quadrat 1.U∗=Ur√V∗=Vc√
Wir können Zeilen- und / oder Spaltenkoordinaten mit der Trägheit von Eigenwerten wie in PCA zuweisen. Nicht standardisierte Zeilenkoordinaten : (direkter Weg). Nicht standardisierte Spaltenkoordinaten: (direkter Weg). Was ist mit dem indirekten Weg? Sie können leicht durch Ersetzungen ableiten, dass die indirekte Formel für die nicht standardisierten Zeilenkoordinaten und für die nicht standardisierten Spaltenkoordinaten .U∗SV∗S′XV∗/cX′U∗/r
PCA als besonderer Fall von Biplot . Aus den obigen Beschreibungen haben Sie wahrscheinlich erfahren, dass sich PCA und Biplot nur darin unterscheiden, wie sie in normalisieren, das dann zerlegt wird. Der Biplot normalisiert sich sowohl durch die Anzahl der Zeilen als auch durch die Anzahl der Spalten. PCA normalisiert nur durch die Anzahl der Zeilen. Folglich gibt es einen kleinen Unterschied zwischen den beiden Post-DVD-Berechnungen. Wenn Sie beim Biplot in seinen Formeln , erhalten Sie genau die PCA-Ergebnisse. Somit kann Biplot als generische Methode und PCA als besonderer Fall von Biplot angesehen werden.XZc=1
[ Spaltenzentrierung . Einige Benutzer mögen sagen: Stop, aber erfordert PCA nicht auch und vor allem die Zentrierung der Datenspalten (Variablen), um die Varianz zu erklären ? Während Biplot kann die Zentrierung nicht tun? Meine Antwort: Nur PCA-in-narrow-sense führt die Zentrierung durch und erklärt die Varianz. Ich spreche über lineare PCA im Allgemeinen, PCA, die eine Art Summe der quadratischen Abweichungen vom gewählten Ursprung erklärt. Sie können es als Datenmittelwert, als native 0 oder nach Belieben auswählen. Daher ist die "Zentrierungs" -Operation nicht das, was PCA von Biplot unterscheiden könnte.]
Passive Zeilen und Spalten
In Biplot oder PCA können Sie einige Zeilen und / oder Spalten als passiv oder ergänzend festlegen. Passive Zeilen oder Spalten beeinflussen die SVD nicht und beeinflussen daher nicht die Trägheit oder die Koordinaten anderer Zeilen / Spalten, sondern erhalten ihre Koordinaten im Raum der Hauptachsen, die durch die aktiven (nicht passiven) Zeilen / Spalten erzeugt werden.
Um einige Punkte (Zeilen / Spalten) als passiv festzulegen, (1) definieren Sie und als die Anzahl der aktiven Zeilen und Spalten. (2) In vor svd passive Zeilen und Spalten auf Null setzen. (3) Verwenden Sie die "indirekten" Methoden, um die Koordinaten passiver Zeilen / Spalten zu berechnen, da deren Eigenvektorwerte Null sind.rcZ
Wenn Sie in PCA Komponentenbewertungen für neu eingehende Fälle mithilfe von Ladungen berechnen, die anhand alter Beobachtungen ermittelt wurden (unter Verwendung der Bewertungskoeffizientenmatrix ), verhalten Sie sich genau so, als würden Sie diese neuen Fälle in PCA aufnehmen und passiv lassen. In ähnlicher Weise ist die Berechnung von Korrelationen / Kovarianzen einiger externer Variablen mit den von einer PCA erzeugten Komponentenbewertungen gleichbedeutend damit, diese Variablen in dieser PCA zu übernehmen und passiv zu halten.
Beliebige Trägheitsausbreitung
Die Spaltenmittelquadrate (MS) von Standardkoordinaten sind 1. Die Spaltenmittelquadrate (MS) von nicht standardisierten Koordinaten entsprechen der Trägheit der jeweiligen Hauptachsen: Die gesamte Trägheit von Eigenwerten wurde an Eigenvektoren gespendet, um die nicht standardisierten Koordinaten zu erzeugen.
In Biplot : row Standardkoordinaten haben MS = 1 für jede Hauptachse. Row unstandardized Koordinaten, die auch als Zeilenhaupt Koordinaten hat MS = entsprechenden Eigenwert von . Gleiches gilt für Spaltenstandard- und nicht standardisierte (Haupt-) Koordinaten.U∗U∗S=XV∗/cZ
Im Allgemeinen ist es nicht erforderlich, dass man Koordinaten entweder vollständig oder gar nicht mit Trägheit ausstattet. Willkürliche Verbreitung ist zulässig, falls dies aus irgendeinem Grund erforderlich ist. Lassen der seinen Anteil an Trägheit , die Reihen zu gehen. Dann lautet die allgemeine Formel der : (direkter Weg) = (indirekter Weg). Wenn wir Standardzeilenkoordinaten, während wir mit Hauptzeilenkoordinaten erhalten.p1U∗Sp1XV∗Sp1−1/cp1=0p1=1
Ebenso ist der Anteil der Trägheit, der in Spalten gehen soll. Dann lautet die allgemeine Formel der Spaltenkoordinaten: (direkter Weg) = (indirekter Weg). Wenn wir Standardspaltenkoordinaten, während wir mit Hauptspaltenkoordinaten erhalten.p2V∗Sp2X′U∗Sp2−1/rp2=0p2=1
Die allgemeinen indirekten Formeln sind insofern universell, als sie die Berechnung von Koordinaten (Standard-, Haupt- oder Zwischenkoordinaten) auch für die gegebenenfalls vorhandenen passiven Punkte ermöglichen.
Wenn , wird die Trägheit auf Zeilen- und Spaltenpunkte verteilt. Die , dh Zeilen-Haupt-Spalten-Standard, werden manchmal als Biplots "Form Biplots" oder "Row-Metric Preservation" bezeichnet. Die , dh Zeilen-Standard-Spalten-Prinzip, werden in der PCA-Literatur häufig als "Kovarianz-Biplots" oder "spaltenmetrische Konservierungs-Biplots" bezeichnet. Sie zeigen variable Belastungen ( die Kovarianzen gegenübergestellt sind) sowie standardisierte Komponentenbewertungen, wenn sie innerhalb der PCA angewendet werden.p1+p2=1p1=1,p2=0p1=0,p2=1
In Korrespondenzanalyse , wird häufig verwendet und wird als „symmetrisch“ oder „kanonische“ Normalisierung durch Trägheit genannt - es ermöglicht (wenn auch in einem gewissen expence des euklidischen geometrischen Strikt) zu vergleichen , die Nähe zwischen Zeilen- und Spaltenpunkten, wie wir kann auf mehrdimensionalen entfalten Karte tun.p1=p2=1/2
Korrespondenzanalyse (Euklidisches Modell)
Die bidirektionale (= einfache) Korrespondenzanalyse (CA) wird zum Analysieren einer bidirektionalen Kontingenztabelle verwendet, d. H. Einer nicht negativen Tabelle, deren Einträge die Bedeutung einer Affinität zwischen einer Zeile und einer Spalte haben. Wenn es sich bei der Tabelle um Frequenzen handelt, wird eine Chi-Quadrat-Modell-Korrespondenzanalyse verwendet. Wenn die Einträge beispielsweise Mittelwerte oder andere Bewertungen sind, wird eine einfachere euklidische Modell-CA verwendet.
Das euklidische Modell CA ist nur der oben beschriebene Biplot, nur dass die Tabelle zusätzlich vorverarbeitet wird, bevor sie in die Biplot-Operationen eintritt. Insbesondere werden die Werte nicht nur durch und sondern auch durch die Gesamtsumme normiert .XrcN
Die Vorverarbeitung besteht aus dem Zentrieren und anschließenden Normalisieren um die mittlere Masse. Das Zentrieren kann verschieden sein, am häufigsten: (1) Zentrieren von Säulen; (2) Zentrieren von Reihen; (3) Zweiwegezentrierung, die die gleiche Operation wie die Berechnung von Frequenzresten ist; (4) Zentrieren von Spalten nach dem Ausgleichen von Spaltensummen; (5) Zentrieren der Zeilen nach dem Ausgleich der Zeilensummen. Das Normalisieren durch die mittlere Masse wird durch den mittleren Zellwert der Anfangstabelle dividiert. Im Vorverarbeitungsschritt werden passive Zeilen / Spalten, falls vorhanden, passiv standardisiert: Sie werden durch die aus aktiven Zeilen / Spalten berechneten Werte zentriert / normalisiert.
Dann wird das übliche Biplot auf dem vorverarbeiteten , beginnend mit .XZ=X/rc−−√
Gewichteter Biplot
Stellen Sie sich vor, dass die Aktivität oder Wichtigkeit einer Zeile oder Spalte eine beliebige Zahl zwischen 0 und 1 sein kann und nicht nur 0 (passiv) oder 1 (aktiv), wie im bisher diskutierten klassischen Biplot. Wir könnten die Eingabedaten mit diesen Zeilen- und Spaltengewichten gewichten und einen gewichteten Biplot durchführen. Bei einem gewichteten Biplot ist die Zeile oder Spalte in Bezug auf alle Ergebnisse - die Trägheit und die Koordinaten aller Punkte auf den Hauptachsen - umso einflussreicher, je größer das Gewicht ist.
Der Benutzer gibt Zeilen- und Spaltengewichte ein. Diese und jene werden zuerst separat normalisiert, um auf 1 zu summieren. Dann ist der Normalisierungsschritt , wobei und die Gewichte für Zeile i und Spalte j sind . Ein genaues Nullgewicht kennzeichnet die Zeile oder die Spalte als passiv.Zij=Xijwiwj−−−−√wiwj
An diesem Punkt können wir feststellen, dass der klassische Biplot einfach dieser gewichtete Biplot mit gleichen Gewichten für alle aktiven Zeilen und gleichen Gewichten für alle aktiven Spalten ist; und die Anzahl der aktiven Zeilen und aktiven Spalten.1/r1/crc
Führen Sie eine DVD von . Alle Operationen sind die gleichen wie im klassischen Biplot, der einzige Unterschied besteht darin, dass anstelle von und anstelle von . Standardzeilenkoordinaten: und Standardspaltenkoordinaten: . (Dies gilt für Zeilen / Spalten mit einer Gewichtung ungleich Null. Belassen Sie die Werte für solche mit einer Gewichtung ungleich Null bei 0 und verwenden Sie die folgenden indirekten Formeln, um Standardkoordinaten oder beliebige Koordinaten für diese zu erhalten.)Zwi1/rwj1/cU∗i=Ui/wi−−√V∗j=Vj/wj−−√
Geben Sie den Koordinaten die gewünschte Trägheit (bei und die Koordinaten vollständig nicht standardisiert, bei und bleiben sie standardisiert). Zeilen: (direkter Weg) = (indirekter Weg). Spalten: (direkter Weg) = (indirekter Weg). Matrizen in Klammern sind hier die diagonalen Matrizen der Spalten- bzw. Zeilengewichte. Für passive Punkte (dh mit Gewichten von Null) ist nur die indirekte Berechnungsmethode geeignet. Für aktive Punkte (positive Gewichte) können Sie einen beliebigen Weg wählen.p1=1p2=1p1=0p2=0U∗Sp1X[Wj]V∗Sp1−1V∗Sp2([Wi]X)′U∗Sp2−1
PCA als besonderer Fall von Biplot überarbeitet . Bei der Betrachtung eines ungewichteten Biplots erwähnte ich zuvor, dass PCA und Biplot äquivalent sind. Der einzige Unterschied besteht darin, dass Biplot Spalten (Variablen) der Daten als zufällige Fälle symmetrisch zu Beobachtungen (Zeilen) ansieht. Nachdem wir nun den Biplot auf einen allgemeineren gewichteten Biplot ausgeweitet haben, können wir ihn erneut beanspruchen. Der einzige Unterschied besteht darin, dass der (gewichtete) Biplot die Summe der Spaltengewichte der Eingabedaten auf 1 und den (gewichteten) PCA auf die Anzahl von ( aktive) Spalten. Hier wird also die gewichtete PCA eingeführt. Die Ergebnisse sind proportional zu denen des gewichteten Biplots identisch. Insbesondere wennc Ist die Anzahl der aktiven Spalten, so gelten für gewichtete und klassische Versionen der beiden Analysen die folgenden Beziehungen:
- Eigenwerte von PCA = Eigenwerte von Biplot ;⋅c
- Ladungen = Spaltenkoordinaten unter "Hauptnormalisierung" von Spalten;
- standardisierte Komponentenwerte = Zeilenkoordinaten unter "Standardnormalisierung" von Zeilen;
- Eigenvektoren von PCA = Spaltenkoordinaten unter "Standardnormalisierung" von Spalten ;/c√
- Rohkomponenten-Scores = Zeilenkoordinaten unter "Hauptnormalisierung" von Zeilen .⋅c√
Korrespondenzanalyse (Chi-Quadrat-Modell)
Dies ist technisch gesehen ein gewichteter Biplot, bei dem die Gewichte aus einer Tabelle selbst berechnet werden und nicht vom Benutzer bereitgestellt werden. Es wird hauptsächlich zur Analyse von Frequenzkreuztabellen verwendet. Bei diesem Biplot werden die Chi-Quadrat-Abstände in der Tabelle durch euklidische Abstände auf dem Plot angenähert. Der Chi-Quadrat-Abstand ist mathematisch der euklidische Abstand, der mit den Randsummen umgekehrt gewichtet wird. Ich werde nicht weiter auf die Geometrie des Chi-Quadrat-Modells CA eingehen.
Die Vorverarbeitung der Frequenztabelle ist wie folgt: Teilen Sie jede Frequenz durch die erwartete Frequenz und subtrahieren Sie dann 1. Es ist dasselbe, als ob Sie zuerst den Frequenzrest erhalten und dann durch die erwartete Frequenz dividieren. Setzen Sie die auf und die Spaltengewichte auf , wobei die von Zeile i ist (nur aktive Spalten), die von Spalte j ist (nur aktive Zeilen), ist die aktive Gesamtsumme der Tabelle (die drei Zahlen stammen aus der Anfangstabelle).Xwi=Ri/Nwj=Cj/NRiCjN
Dann tun gewichtete Biplot: (1) Normalisieren in . (2) Die Gewichte sind niemals Null (Null und sind in CA nicht zulässig); Sie können jedoch erzwingen, dass Zeilen / Spalten passiv werden, indem Sie sie in auf Null setzen, sodass ihre Gewichtung bei svd unwirksam ist. (3) DVD machen. (4) Berechnen Sie die Standard- und Trägheitskoordinaten wie im gewichteten Biplot.XZRiCjZ
Sowohl im Chi-Quadrat-Modell CA als auch im euklidischen Modell CA mit Zweiwege-Zentrierung ist ein letzter Eigenwert immer 0, sodass die maximal mögliche Anzahl von Hauptdimensionen .min(r−1,c−1)
Siehe auch eine schöne Übersicht über das Chi-Quadrat-Modell CA in dieser Antwort .
Abbildungen
Hier ist eine Datentabelle.
row A B C D E F
1 6 8 6 2 9 9
2 0 3 8 5 1 3
3 2 3 9 2 4 7
4 2 4 2 2 7 7
5 6 9 9 3 9 6
6 6 4 7 5 5 8
7 7 9 6 6 4 8
8 4 4 8 5 3 7
9 4 6 7 3 3 7
10 1 5 4 5 3 6
11 1 5 6 4 8 3
12 0 6 7 5 3 1
13 6 9 6 3 5 4
14 1 6 4 7 8 4
15 1 1 5 2 4 3
16 8 9 7 5 5 9
17 2 7 1 3 4 4
28 5 3 3 9 6 4
19 6 7 6 2 9 6
20 10 7 4 4 8 7
Es folgen mehrere Doppelstreudiagramme (in 2 ersten Hauptdimensionen), die auf Analysen dieser Werte basieren. Spaltenpunkte sind zur visuellen Hervorhebung durch Spitzen mit dem Ursprung verbunden. Diese Analysen enthielten keine passiven Zeilen oder Spalten.
Der erste Biplot sind SVD- Ergebnisse der Datentabelle, die "wie sie ist" analysiert wurden; Die Koordinaten sind die Zeilen- und Spalteneigenvektoren.
Unten ist eine der möglichen Biplots, die von PCA stammen . PCA wurde mit den Daten "wie sie sind" durchgeführt, ohne die Spalten zu zentrieren; Da dies jedoch in PCA übernommen wurde, wurde zunächst eine Normalisierung durch die Anzahl der Zeilen (die Anzahl der Fälle) durchgeführt. In diesem speziellen Biplot werden die Hauptzeilenkoordinaten (dh die Rohkomponentenwerte) und die Hauptspaltenkoordinaten (dh die variablen Ladungen) angezeigt.
Als nächstes folgt biplot sensu stricto : Die Tabelle wurde anfangs sowohl durch die Anzahl der Zeilen als auch durch die Anzahl der Spalten normalisiert. Die Hauptnormalisierung (Trägheitsverteilung) wurde sowohl für Zeilen- als auch für Spaltenkoordinaten verwendet - wie bei der obigen PCA. Beachten Sie die Ähnlichkeit mit dem PCA-Biplot: Der einzige Unterschied beruht auf dem Unterschied in der anfänglichen Normalisierung.
Chi-Quadrat-Modell- Korrespondenzanalyse- Biplot. Die Datentabelle wurde in besonderer Weise vorverarbeitet, sie enthielt eine bidirektionale Zentrierung und eine Normalisierung unter Verwendung von Randsummen. Es ist ein gewichteter Biplot. Die Trägheit wurde symmetrisch über die Zeilen- und Spaltenkoordinaten verteilt - beide liegen auf halber Strecke zwischen "Haupt" - und "Standard" -Koordinaten.
Die Koordinaten, die auf all diesen Streudiagrammen angezeigt werden:
point dim1_1 dim2_1 dim1_2 dim2_2 dim1_3 dim2_3 dim1_4 dim2_4
1 .290 .247 16.871 3.048 6.887 1.244 -.479 -.101
2 .141 -.509 8.222 -6.284 3.356 -2.565 1.460 -.413
3 .198 -.282 11.504 -3.486 4.696 -1.423 .414 -.820
4 .175 .178 10.156 2.202 4.146 .899 -.421 .339
5 .303 .045 17.610 .550 7.189 .224 -.171 -.090
6 .245 -.054 14.226 -.665 5.808 -.272 -.061 -.319
7 .280 .051 16.306 .631 6.657 .258 -.180 -.112
8 .218 -.248 12.688 -3.065 5.180 -1.251 .322 -.480
9 .216 -.105 12.557 -1.300 5.126 -.531 .036 -.533
10 .171 -.157 9.921 -1.934 4.050 -.789 .433 .187
11 .194 -.137 11.282 -1.689 4.606 -.690 .384 .535
12 .157 -.384 9.117 -4.746 3.722 -1.938 1.121 .304
13 .235 .099 13.676 1.219 5.583 .498 -.295 -.072
14 .210 -.105 12.228 -1.295 4.992 -.529 .399 .962
15 .115 -.163 6.677 -2.013 2.726 -.822 .517 -.227
16 .304 .103 17.656 1.269 7.208 .518 -.289 -.257
17 .151 .147 8.771 1.814 3.581 .741 -.316 .670
18 .198 -.026 11.509 -.324 4.699 -.132 .137 .776
19 .259 .213 15.058 2.631 6.147 1.074 -.459 .005
20 .278 .414 16.159 5.112 6.597 2.087 -.753 .040
A .337 .534 4.387 1.475 4.387 1.475 -.865 -.289
B .461 .156 5.998 .430 5.998 .430 -.127 .186
C .441 -.666 5.741 -1.840 5.741 -1.840 .635 -.563
D .306 -.394 3.976 -1.087 3.976 -1.087 .656 .571
E .427 .289 5.556 .797 5.556 .797 -.230 .518
F .451 .087 5.860 .240 5.860 .240 -.176 -.325