Datenraum, variabler Raum, Beobachtungsraum, Modellraum (zB in linearer Regression)


9

Angenommen, wir haben die Datenmatrix , die mal- , und den Markierungsvektor , der mal-eins ist. Hier ist jede Zeile der Matrix eine Beobachtung, und jede Spalte entspricht einer Dimension / Variablen. ( annehmen )XnpYn > pnn>p

Und was tun data space, variable space, observation space, model spacebedeuten?

Ist der vom Spaltenvektor überspannte Raum ein (entarteter) D-Raum, da er Koordinaten hat, während er Rang , der als variabler Raum bezeichnet wird, da er vom variablen Vektor überspannt wird? Oder heißt es Beobachtungsraum, da jede Dimension / Koordinate einer Beobachtung entspricht?n pnnp

Und was ist mit dem Raum, der von den Zeilenvektoren überspannt wird?


5
Dies sind keine allgemein bekannten Begriffe. Haben Sie eine Referenz? Wenn nicht, raten wir vielleicht, was sie bedeuten sollen.
whuber

1
Ich habe keine Referenz. Ich habe es vor einiger Zeit einmal von meinem Professor gehört.
user3813057

3
Ich bin mir also ziemlich sicher, dass Ihr Professor diese Begriffe irgendwann definiert hat. Vielleicht sind sie in Ihren Klassennotizen ....
whuber

Antworten:


13

Diese Begriffe erscheinen in einigen Büchern über multivariate Statistiken. Angenommen, Sie haben nPersonen nach pquantitativer Merkmalsdatenmatrix. Dann können Sie Personen als Punkte in dem Raum zeichnen, in dem die Achsen die Merkmale sind. Das wird ein klassisches Streudiagramm sein, auch bekannt als variables Raumdiagramm. Wir sagen, die Wolke von Individuen überspannt den Raum , der durch die Achsenmerkmale definiert ist.

Sie können sich das Streudiagramm auch so vorstellen, dass Punkte die Variablen und die Achsen die Individuen sind. Absolut wie vorher, nur auf den Kopf gestellt. Das wird Thema Raum Grundstück (oder Beobachtungsraum Grundstück) mit den Variablen Spanning es, die Individuen zu definieren es.

Beachten Sie, dass, wenn (wie so oft) n>pim zweiten Fall nur einige pDimensionen außerhalb der nDimensionen nicht redundant sind; Das bedeutet, dass Sie die pvariablen Punkte auf dem peindimensionalen Diagramm zeichnen können und können . Traditionell sind variable Punkte normalerweise mit dem Ursprung verbunden und erscheinen daher als Vektoren (Pfeile). Wir verwenden die Darstellung des Subjektraums hauptsächlich, um Beziehungen zwischen Variablen darzustellen. Daher lassen wir die Achsen-Subjekte fallen und stellen der Einfachheit halber Punkte als Pfeile dar.1

Wenn Merkmale (Spalten der Datenmatrix) vor dem Zeichnen des Objektraumdiagramms zentriert wurden, entsprechen die Kosinusse der Winkel zwischen den variablen Vektoren ihren Pearson-Korrelationen, während die Vektorlängen den Normen der Variablen (Wurzelsumme der Quadrate) entsprechen ) oder Standardabweichungen (wenn durch df geteilt ).

Variabler Raum und Subjektraum sind zwei Seiten derselben Medaille, sie sind der gleiche euklidische analytische Raum, der nur spiegelbildlich zueinander dargestellt wird. Sie haben dieselben Eigenschaften wie die Eigenwerte ungleich Null und die Eigenvektoren. Es ist daher möglich, sowohl Subjekte als auch Variablen nebeneinander als Punkte im Raum der Hauptachsen (oder einer anderen orthogonalen Basis) dieses analytischen Raums darzustellen . Diese gemeinsame Darstellung wird als Biplot bezeichnet . Ich weiß nicht genau, was der Begriff "Datenraum" bedeutet - wenn er etwas Bestimmtes bedeutet, dann ist es vermutlich der gemeinsame analytische Raum, dessen Subjektraum und variabler Raum die beiden Hypostasen sind.

Geben Sie hier die Bildbeschreibung ein

Einige lokale Links:


1 Stellen Sie sich vor, Sie haben n=5Individuen und p=2Variablen und haben es irgendwie magisch geschafft, die 2 Punkte im 5-dimensionalen Raum zu zeichnen. Dann können Sie den durch 2 beliebige Achsen definierten Unterraum so drehen, dass die 2 Punkte (die sich von nun an über diese Ebene erstrecken) eingebettet sind. Danach lassen Sie die anderen 3 Achsen (Abmessungen) sicher fallen, da sie unnötig geworden sind. Die Position der beiden variablen Punkte relativ zueinander wurde beibehalten.


2
+1. Ich bin mir jedoch nicht sicher, was genau die mathematische Bedeutung ist, wenn ich sage, dass die Variable und der Subjektraum "der gleiche euklidische analytische Raum" sind.
Amöbe

3
@amoeba, Ohne mathematisch in der Antwort zu sein, hoffte ich, dass es intuitiv transparent ist (insbesondere für Experten für lineare Algebra wie Sie). Zum Beispiel in der Singularwertzerlegung der Datenmatrix (svd, auf der der Biplot basiert) - welchen Raum charakterisieren die Eigenwerte und der linke und rechte Eigenvektor? Ist es nicht derselbe analytische Raum, der auf verschiedene Arten angelegt werden könnte - darunter (i) Zeilen und Spalten als Punkte durch Hauptachsen als Achsen; (ii) Zeilen als Punkte durch Spalten als Achsen; (iii) Spalten als Punkte durch Zeilen als Achsen?
ttnphns
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.