Diese Antwort ist bewusst nicht mathematisch und richtet sich an nicht statistische Psychologen (etwa), die sich fragen, ob sie die Faktorwerte verschiedener Faktoren addieren / mitteln dürfen, um für jeden Befragten einen "zusammengesetzten Index" zu erhalten.
Das Summieren oder Mitteln der Bewertungen einiger Variablen setzt voraus, dass die Variablen derselben Dimension angehören und fungible Kennzahlen sind. (In der Frage sind "Variablen" Komponenten- oder Faktorbewertungen , die nichts daran ändern, da sie Beispiele für Variablen sind.)
( 0,8 + 0,8 ) / 2 = 0,8( 1,2 + 0,4 ) / 2 = 0,8.8X+ YXY.separat. Korrelierte Variablen, die dieselbe Dimension repräsentieren, können als wiederholte Messungen derselben Charakteristik und die Differenz oder Nichtäquivalenz ihrer Bewertungen als Zufallsfehler angesehen werden. Es wird deshalb warranded zu sum / Mittelwert der Noten , da Zufallsfehler zu erwarten sind gegenseitig aufzuheben in spe .
XY.
.82+ .82-------√≈ 1.131.22+ .42--------√≈ 1,26X= .8Y.= - .8X= 0Y.= 0
wXXich+ wY.Y.ichXY.wXwY.sind für alle Befragten konstant i, was die Ursache für den Fehler ist. Um die bivariate Abweichung eines Befragten - in Form eines Kreises oder einer Ellipse - in Beziehung zu setzen, müssen Gewichte eingeführt werden, die von seinen Punktzahlen abhängen. Der zuvor betrachtete euklidische Abstand ist tatsächlich ein Beispiel für eine solche gewichtete Summe, wobei die Gewichte von den Werten abhängen. Und wenn es für Sie wichtig ist, ungleiche Varianzen der Variablen (z. B. der Hauptkomponenten, wie in der Frage) zu berücksichtigen, können Sie den gewichteten euklidischen Abstand berechnen, den Abstand, der in Abb. 2 gefunden wird, nachdem sich der Kreis verlängert hat.
| .8 | + | .8 | =1,6| 1.2 | + | .4 | =1,6X= .8Y.= - .81.60
(Sie könnten sagen: "Ich werde alle Datenwerte positiv machen und die Summe (oder den Durchschnitt) mit gutem Gewissen berechnen, da ich die Entfernung nach Manhatten gewählt habe.", Aber denken Sie bitte - haben Sie Recht, den Ursprung frei zu verschieben? Hauptkomponenten oder -faktoren, B. unter der Bedingung extrahiert werden, dass die Daten auf den Mittelwert zentriert wurden, was sinnvoll ist. Ein anderer Ursprung hätte andere Komponenten / Faktoren mit anderen Punktzahlen hervorgebracht. Nein, in den meisten Fällen spielen Sie möglicherweise nicht mit dem Ursprung - dem Ort von "typischen Befragten" oder von "Zero-Level-Merkmal" - wie Sie Lust zu spielen.)
Zusammenfassend lässt sich sagen, dass , wenn das Ziel des zusammengesetzten Konstrukts darin besteht, die Positionen der Befragten in Bezug auf eine "Null" oder einen typischen Ort wiederzugeben, die Variablen jedoch kaum miteinander korrelieren, eine Art räumlicher Abstand von diesem Ursprung und keine mittlere (oder Summe) Gewichtung vorliegt oder ungewichtet, sollte gewählt werden.
Nun, der Mittelwert (Summe) ist sinnvoll, wenn Sie die (unkorrelierten) Variablen als alternative Modi betrachten, um dasselbe zu messen . Auf diese Weise ignorieren Sie bewusst die unterschiedlichen Eigenschaften der Variablen. Mit anderen Worten, Sie verlassen Abb. 2 bewusst zugunsten von Abb. 1: Sie "vergessen", dass die Variablen unabhängig sind. Dann - Summe oder Durchschnitt. Beispielsweise könnte die Punktzahl für "materielles Wohlergehen" und "emotionales Wohlergehen" gemittelt werden, ebenso die Punktzahl für "räumlicher IQ" und "verbaler IQ". Diese Art von rein pragmatisch, nicht zugelassene satistische Komposite werden als Batterieindizes bezeichnet (eine Sammlung von Tests oder Fragebögen, die nicht miteinander in Beziehung stehende Dinge oder korrelierte Dinge messen, deren Korrelationen wir ignorieren, wird als "Batterie" bezeichnet). Batterieindizes sind nur dann sinnvoll, wenn die Bewertungen dieselbe Richtung haben (z. B. werden sowohl Wohlstand als auch emotionale Gesundheit als "besserer" Pol angesehen). Ihr Nutzen außerhalb enger Ad-hoc-Einstellungen ist begrenzt.
Wenn es sich bei den Variablen um Zwischenbeziehungen handelt - sie sind erheblich miteinander korreliert und dennoch nicht stark genug, um sie als Duplikate oder Alternativen voneinander zu betrachten, addieren (oder mitteln) wir ihre Werte häufig gewichtet. Dann sollten diese Gewichte sorgfältig entworfen werden und sie sollten auf diese oder jene Weise die Korrelationen widerspiegeln. Dies tun wir zum Beispiel mittels PCA oder Faktoranalyse (FA), wo wir speziell Komponenten- / Faktor-Scores berechnen . Wenn Ihre Variablen selbst bereits Komponenten- oder Faktor-Scores sind (wie die OP-Frage hier sagt) und sie korreliert sind (wegen der schrägen Rotation), können Sie sie (oder direkt die Ladematrix) der PCA / FA zweiter Ordnung unterwerfen, um sie zu finden Geben Sie die Gewichte ein und ermitteln Sie den PC / Faktor zweiter Ordnung, der den "zusammengesetzten Index" für Sie liefert.
Wenn Ihre Komponenten- / Faktor-Scores jedoch nicht korreliert oder schwach korreliert waren, gibt es keinen statistischen Grund, sie weder direkt noch über Schlussgewichte zu summieren. Verwenden Sie stattdessen etwas Abstand. Das Problem mit der Distanz ist, dass es immer positiv ist: Sie können sagen, wie viel atypisch ein Befragter ist, können aber nicht sagen, ob er "über" oder "unter" ist. Dies ist jedoch der Preis, den Sie zahlen müssen, wenn Sie einen einzelnen Index aus dem Multi-Trait-Space herausfordern. Wenn Sie sowohl Abweichung als auch Zeichen in einem solchen Raum wünschen, würde ich sagen, dass Sie zu anspruchsvoll sind.
Im letzten Punkt fragt das OP, ob es richtig ist, nur die Punktzahl einer stärksten Variablen in Bezug auf ihre Varianz - in diesem Fall die erste Hauptkomponente - als einzigen Stellvertreter für den "Index" zu verwenden. Es ist sinnvoll, wenn dieser PC viel stärker ist als die anderen PCs. Man könnte dann fragen: "Wenn es so viel stärker ist, warum haben Sie dann nicht einfach nur die Sohle extrahiert / behalten?"