Die Reduzierung der Dimensionalität verliert nicht immer Informationen. In einigen Fällen ist es möglich, die Daten in niederdimensionalen Räumen erneut darzustellen, ohne Informationen zu verwerfen.
Angenommen, Sie haben einige Daten, bei denen jeder Messwert zwei geordneten Kovariaten zugeordnet ist. Angenommen, Sie haben die Signalqualität (angezeigt durch Farbe Weiß = gut, Schwarz = schlecht) in einem dichten Raster von und Positionen relativ zu einem Emitter gemessen . In diesem Fall sehen Ihre Daten möglicherweise wie im linken Diagramm aus [* 1]:Qxy
Es ist zumindest oberflächlich gesehen ein zweidimensionales Datenelement: . Wir können jedoch a priori (basierend auf der zugrunde liegenden Physik) wissen oder annehmen, dass dies nur von der Entfernung vom Ursprung abhängt: r = . (Einige explorative Analysen könnten Sie auch zu dieser Schlussfolgerung führen, wenn selbst das zugrunde liegende Phänomen nicht gut verstanden wird.) Wir könnten dann unsere Daten als anstelle von umschreiben , was die Dimensionalität effektiv auf eine einzige Dimension reduzieren würde. Dies ist natürlich nur dann verlustfrei, wenn die Daten radialsymmetrisch sind, aber dies ist eine vernünftige Annahme für viele physikalische Phänomene.Q(x,y)x2+y2−−−−−−√Q(r)Q(x,y)
Diese Transformation ist nicht linear (es gibt eine Quadratwurzel und zwei Quadrate!), Also unterscheidet sie sich etwas von der Art der Dimensionsreduktion, die von PCA durchgeführt wird, aber ich denke, es ist eine schöne Beispiel, wie Sie manchmal eine Dimension entfernen können, ohne Informationen zu verlieren.Q(x,y)→Q(r)
Nehmen wir für ein anderes Beispiel an, Sie führen für einige Daten eine Singularwertzerlegung durch (SVD ist ein enger Verwandter der Analyse der Hauptkomponenten und häufig der zugrunde liegenden Eingeweide). SVD nimmt Ihre Datenmatrix und zerlegt sie in drei Matrizen, so dass . Die Spalten von U und V sind die linken bzw. rechten Singularvektoren, die einen Satz orthonormaler Basen für . Die diagonalen Elemente von (dh sind singuläre Werte, die effektiv Gewichte auf der ten Basismenge sind, die durch die entsprechenden Spalten von und (der Rest vonM = U S V T M S S i , i ) i U V S N x N N x N S U V M Q ( x , y )MM=USVTMSSi,i)iUVSist Nullen). Dies allein führt zu keiner Verringerung der Dimensionalität (tatsächlich gibt es jetzt 3 Matrizen anstelle der einzelnen Matrix, mit der Sie begonnen haben). Manchmal sind jedoch einige diagonale Elemente von Null. Dies bedeutet, dass die entsprechenden Basen in und nicht zur Rekonstruktion von benötigt werden und daher fallengelassen werden können. Angenommen,NxNNxNSUVMQ(x,y)Die obige Matrix enthält 10.000 Elemente (dh 100 x 100). Wenn wir eine SVD durchführen, stellen wir fest, dass nur ein Paar singulärer Vektoren einen Wert ungleich Null hat [* 2], sodass wir die ursprüngliche Matrix als Produkt von zwei Vektoren mit 100 Elementen (200 Koeffizienten, aber) neu darstellen können du kannst es tatsächlich ein bisschen besser machen [* 3]).
Für einige Anwendungen wissen wir (oder gehen zumindest davon aus), dass die nützlichen Informationen von Hauptkomponenten mit hohen Singularwerten (SVD) oder Belastungen (PCA) erfasst werden. In diesen Fällen könnten wir die singulären Vektoren / Basen / Hauptkomponenten mit kleineren Belastungen verwerfen, selbst wenn sie nicht Null sind, basierend auf der Theorie, dass diese eher störendes Rauschen als ein nützliches Signal enthalten. Ich habe gelegentlich gesehen, dass Leute bestimmte Komponenten aufgrund ihrer Form ablehnen (z. B. ähnelt sie einer bekannten Quelle für additives Rauschen), unabhängig von der Belastung. Ich bin mir nicht sicher, ob Sie dies als Informationsverlust betrachten würden oder nicht.
Es gibt einige gute Ergebnisse zur informationstheoretischen Optimalität von PCA. Wenn Ihr Signal Gaußsch ist und durch additives Gaußsches Rauschen verfälscht wird, kann PCA die gegenseitige Information zwischen dem Signal und seiner Version mit reduzierter Dimensionsreduzierung maximieren (vorausgesetzt, das Rauschen weist eine identitätsähnliche Kovarianzstruktur auf).
Fußnoten:
- Dies ist ein kitschiges und völlig nicht-physisches Modell. Es tut uns leid!
- Aufgrund der Ungenauigkeit des Gleitkommas sind einige dieser Werte stattdessen nicht ganz Null.
- Bei weiterer Betrachtung sind in diesem speziellen Fall die beiden singulären Vektoren um ihr Zentrum gleich UND symmetrisch, so dass wir tatsächlich die gesamte Matrix mit nur 50 Koeffizienten darstellen könnten. Beachten Sie, dass der erste Schritt automatisch aus dem SVD-Prozess herausfällt. Die zweite erfordert eine gewisse Inspektion / einen Vertrauenssprung. (Wenn Sie dies in Bezug auf PCA-Scores berücksichtigen möchten, ist die Score-Matrix nur aus der ursprünglichen SVD-Zerlegung; ähnliche Argumente für Nullen, die überhaupt nicht beitragen, gelten).US