Angenommen, wir haben messbare Variablen , führen eine Anzahl von Messungen durch und möchten dann eine Singulärwertzerlegung für die Ergebnisse durchführen, um die Achsen mit der höchsten Varianz für die Punkte zu finden im dimensionalen Raum. ( Hinweis: davon aus, dass die Mittel der bereits abgezogen worden, so ⟨ ein i ⟩ = 0 für alle i .)M > N M N
Nehmen wir nun an, dass eine (oder mehrere) der Variablen eine signifikant andere charakteristische Größe als der Rest hat. Zum Beispiel könnte Werte im Bereich von während der Rest bei . Dadurch wird die Achse mit der höchsten Varianz sehr stark in Richtung der Achse verschoben.
Der Unterschied in der Größe kann einfach auf eine unglückliche Wahl der Maßeinheit zurückzuführen sein (wenn es sich um physikalische Daten handelt, z. B. Kilometer gegen Meter), aber tatsächlich können die verschiedenen Variablen völlig unterschiedliche Dimensionen haben (z. B. Gewicht gegen Volumen) Es gibt möglicherweise keine offensichtliche Möglichkeit, "vergleichbare" Einheiten für sie auszuwählen.
Frage: Ich würde gerne wissen, ob es Standard- / Standardmethoden zur Normalisierung der Daten gibt, um dieses Problem zu vermeiden. Ich interessiere mich mehr für Standardtechniken, die zu diesem Zweck vergleichbare Größen für erzeugen, als etwas Neues zu erfinden.
BEARBEITEN: Eine Möglichkeit besteht darin, jede Variable durch ihre Standardabweichung oder ähnliches zu normalisieren. Dann tritt jedoch das folgende Problem auf: Wir interpretieren die Daten als Punktwolke im dimensionalen Raum. Diese Punktwolke kann gedreht werden, und diese Art der Normalisierung liefert je nach Drehung unterschiedliche Endergebnisse (nach der SVD). (Stellen Sie sich im extremsten Fall vor, Sie würden die Daten präzise drehen, um die Hauptachsen an den Hauptachsen auszurichten.)
Ich gehe davon aus, dass es keine rotationsinvariante Methode gibt, aber ich würde mich freuen, wenn jemand mich auf eine Diskussion dieses Themas in der Literatur hinweisen könnte, insbesondere in Bezug auf Vorbehalte bei der Interpretation der Ergebnisse.