Datenraum, variabler Raum, Beobachtungsraum, Modellraum (zB in linearer Regression)

Angenommen, wir haben die Datenmatrix , die mal- , und den Markierungsvektor , der mal-eins ist. Hier ist jede Zeile der Matrix eine Beobachtung, und jede Spalte entspricht einer Dimension / Variablen. ( annehmen ) $\mathbf{X}$ $n$ $p$ $Y$ $n$ $n>p$

Und was tun data space, variable space, observation space, model spacebedeuten?

Ist der vom Spaltenvektor überspannte Raum ein (entarteter) D-Raum, da er Koordinaten hat, während er Rang , der als variabler Raum bezeichnet wird, da er vom variablen Vektor überspannt wird? Oder heißt es Beobachtungsraum, da jede Dimension / Koordinate einer Beobachtung entspricht? $n$ $n$ $p$

Und was ist mit dem Raum, der von den Zeilenvektoren überspannt wird?

— user3813057
quelle

Dies sind keine allgemein bekannten Begriffe. Haben Sie eine Referenz? Wenn nicht, raten wir vielleicht, was sie bedeuten sollen.

— whuber

Ich habe keine Referenz. Ich habe es vor einiger Zeit einmal von meinem Professor gehört.

— user3813057

Ich bin mir also ziemlich sicher, dass Ihr Professor diese Begriffe irgendwann definiert hat. Vielleicht sind sie in Ihren Klassennotizen ....

— whuber

Diese Begriffe erscheinen in einigen Büchern über multivariate Statistiken. Angenommen, Sie haben nPersonen nach pquantitativer Merkmalsdatenmatrix. Dann können Sie Personen als Punkte in dem Raum zeichnen, in dem die Achsen die Merkmale sind. Das wird ein klassisches Streudiagramm sein, auch bekannt als variables Raumdiagramm. Wir sagen, die Wolke von Individuen überspannt den Raum , der durch die Achsenmerkmale definiert ist.

Sie können sich das Streudiagramm auch so vorstellen, dass Punkte die Variablen und die Achsen die Individuen sind. Absolut wie vorher, nur auf den Kopf gestellt. Das wird Thema Raum Grundstück (oder Beobachtungsraum Grundstück) mit den Variablen Spanning es, die Individuen zu definieren es.

Beachten Sie, dass, wenn (wie so oft) n>pim zweiten Fall nur einige pDimensionen außerhalb der nDimensionen nicht redundant sind; Das bedeutet, dass Sie die pvariablen Punkte auf dem peindimensionalen Diagramm zeichnen können und können . Traditionell sind variable Punkte normalerweise mit dem Ursprung verbunden und erscheinen daher als Vektoren (Pfeile). Wir verwenden die Darstellung des Subjektraums hauptsächlich, um Beziehungen zwischen Variablen darzustellen. Daher lassen wir die Achsen-Subjekte fallen und stellen der Einfachheit halber Punkte als Pfeile dar. $^1$

Wenn Merkmale (Spalten der Datenmatrix) vor dem Zeichnen des Objektraumdiagramms zentriert wurden, entsprechen die Kosinusse der Winkel zwischen den variablen Vektoren ihren Pearson-Korrelationen, während die Vektorlängen den Normen der Variablen (Wurzelsumme der Quadrate) entsprechen ) oder Standardabweichungen (wenn durch df geteilt ).

Variabler Raum und Subjektraum sind zwei Seiten derselben Medaille, sie sind der gleiche euklidische analytische Raum, der nur spiegelbildlich zueinander dargestellt wird. Sie haben dieselben Eigenschaften wie die Eigenwerte ungleich Null und die Eigenvektoren. Es ist daher möglich, sowohl Subjekte als auch Variablen nebeneinander als Punkte im Raum der Hauptachsen (oder einer anderen orthogonalen Basis) dieses analytischen Raums darzustellen . Diese gemeinsame Darstellung wird als Biplot bezeichnet . Ich weiß nicht genau, was der Begriff "Datenraum" bedeutet - wenn er etwas Bestimmtes bedeutet, dann ist es vermutlich der gemeinsame analytische Raum, dessen Subjektraum und variabler Raum die beiden Hypostasen sind.

Einige lokale Links:

Bilder, die die Darstellung des Hauptraums der Hauptkomponenten (PCA), die lineare Regression und die Faktoranalyse sowie erneut die Regression zeigen . Vergleichen Sie dies mit der traditionellen Darstellung von Regression und PCA im variablen Raum (Streudiagramm) .
Theoretische Erklärung des Biplots . Ein Selbststudium zur Erklärung der Struktur des Biplots bei PCA .
Siehe auch einen Beitrag, in dem versucht wird, herauszufinden, ob eine PCA-Aufgabe auf dem Objektraumdiagramm geometrisch gelöst werden kann (es scheint, dass die PCs die Ellipse definieren; aber wie findet man diese eindeutige Ellipse?).

$^1$ Stellen Sie sich vor, Sie haben n=5Individuen und p=2Variablen und haben es irgendwie magisch geschafft, die 2 Punkte im 5-dimensionalen Raum zu zeichnen. Dann können Sie den durch 2 beliebige Achsen definierten Unterraum so drehen, dass die 2 Punkte (die sich von nun an über diese Ebene erstrecken) eingebettet sind. Danach lassen Sie die anderen 3 Achsen (Abmessungen) sicher fallen, da sie unnötig geworden sind. Die Position der beiden variablen Punkte relativ zueinander wurde beibehalten.

— ttnphns
quelle

+1. Ich bin mir jedoch nicht sicher, was genau die mathematische Bedeutung ist, wenn ich sage, dass die Variable und der Subjektraum "der gleiche euklidische analytische Raum" sind.

— Amöbe

@amoeba, Ohne mathematisch in der Antwort zu sein, hoffte ich, dass es intuitiv transparent ist (insbesondere für Experten für lineare Algebra wie Sie). Zum Beispiel in der Singularwertzerlegung der Datenmatrix (svd, auf der der Biplot basiert) - welchen Raum charakterisieren die Eigenwerte und der linke und rechte Eigenvektor? Ist es nicht derselbe analytische Raum, der auf verschiedene Arten angelegt werden könnte - darunter (i) Zeilen und Spalten als Punkte durch Hauptachsen als Achsen; (ii) Zeilen als Punkte durch Spalten als Achsen; (iii) Spalten als Punkte durch Zeilen als Achsen?

— ttnphns