(Dies ist eine weiche Frage.) Vor kurzem lerne ich die Hauptkomponentenanalyse und es scheint viele Probleme zu geben:
- Sie müssen die Daten auf ungefähr den gleichen Maßstab umwandeln, bevor Sie PCA anwenden. Die Art und Weise, wie die Feature-Skalierung durchgeführt werden soll, ist jedoch nicht festgelegt. Standardisierung? Skalierung auf Längeneinheit? Log-Transformation? Box-Cox-Transformation? Ich glaube, dass sie alle irgendwie funktionieren, aber sie beantworten unterschiedliche Fragen, und es ist nicht trivial, die Transformation bei einem Problem herauszufinden.
- Um eine PCA durchzuführen, müssen Eigenwerte und Eigenvektoren berechnet werden, aber die Vorzeichen der Eigenvektoren sind unbestimmt. Auf den ersten Blick könnte SVD eine gute Lösung sein, da es über verschiedene Implementierungen hinweg das gleiche Ergebnis liefert. Nach meinem Verständnis ist das Ergebnis der SVD jedoch nur eine willkürliche, aber reproduzierbare Wahl der Eigenvektoren.
- Hauptkomponenten sind lineare Kombinationen von Variablen, aber sind sie sinnvoll? Ich meine, man kann die Körpertemperatur eines Affen nicht auf das Zehnfache seiner Schwanzlänge addieren, weil sie aus verschiedenen Einheiten bestehen. (Apropos Einheit, welches Einheitensystem Sie verwenden sollten, ist ein weiterer Aspekt meines ersten Punktes)
- Sollten Sie beim Versuch, die Hauptkomponenten zu interpretieren, die Belastung (Koeffizient) der ten Hauptkomponente auf das te Element oder deren Korrelation ? Rencher (1992) empfiehlt, nur die Koeffizienten zu betrachten, aber meines Wissens besteht in dieser Frage kein Konsens.
Zusammenfassend ist PCA eine statistische (oder wohl mathematische) Methode, die für mich ziemlich unreif erscheint, da sie während des gesamten Prozesses zahlreiche Subjektivitäten und Verzerrungen mit sich bringt. Dennoch bleibt es eine der am weitesten verbreiteten multivariaten Analysemethoden. Warum ist es? Wie überwinden die Menschen die Probleme, die ich aufgeworfen habe? Sind sie sich ihrer überhaupt bewusst?
Verweise:
Rencher, AC „Interpretation kanonischer Diskriminanzfunktionen, kanonischer Variablen und Hauptkomponenten.“ The American Statistician, 46 (1992), 217–225.