Erstellen eines einzelnen Index aus mehreren Hauptkomponenten oder Faktoren, die von PCA / FA beibehalten wurden


15

Ich verwende die Hauptkomponentenanalyse (Principal Component Analysis, PCA), um einen Index zu erstellen, der für meine Forschung erforderlich ist. Meine Frage ist, wie ich einen einzelnen Index erstellen soll, indem ich die über PCA berechneten beibehaltenen Hauptkomponenten verwende.

Zum Beispiel habe ich beschlossen, 3 Hauptkomponenten nach der Verwendung von PCA beizubehalten, und ich habe die Bewertungen für diese 3 Hauptkomponenten berechnet. Wie kann für jeden Befragten ein einzelner Index aus diesen drei Ergebnissen erstellt werden?

  • Ist es relevant, die 3 berechneten Punkte zu addieren, um einen zusammengesetzten Wert zu erhalten?
  • Oder die 3 Punkte zu mitteln, um einen solchen Wert zu haben?
  • Oder sollte ich nur die erste Hauptkomponente (die stärkste) behalten und ihre Punktzahl als Index verwenden?

Alternativ könnte man die Faktoranalyse (FA) verwenden, aber es bleibt die Frage: Wie kann ein einzelner Index auf der Grundlage mehrerer Faktorwerte erstellt werden?


4
PCs sind definitionsgemäß nicht korreliert. Daher duplizieren sie als Variablen in keiner Weise die Informationen des jeweils anderen. Das bedeutet, dass es keinen Grund gibt, einen einzelnen Wert (zusammengesetzte Variable) daraus zu erstellen. Oder manchmal könnte das Multiplizieren von ihnen von Interesse sein - aber nicht das Summieren oder Mitteln.
TTNPHNS

3
Ich stimme @ttnphns zu: Ihre ersten beiden Optionen ergeben wenig Sinn, und die ganze Anstrengung, drei PCs zu einem Index zu "kombinieren", scheint fehl am Platz. Nehmen Sie den ersten PC als Index oder verwenden Sie einen anderen Ansatz.
Amöbe sagt Reinstate Monica

2
@ttnphns nicht korreliert, nicht unabhängig. Möglicherweise werden redundante Informationen zwischen PCs wiederholt, jedoch nicht linear.
Vermutungen

1
@amoeba Danke für die Erinnerung. Ich habe Versionen für das Tag und seinen Auszug unter stats.stackexchange.com/tags/valuation/info entworfen .
whuber

1
@ttnphns Würdest du erwägen, hier eine Antwort zu posten, basierend auf deinem obigen Kommentar? Ich habe gerade hier ein Kopfgeld angefangen, weil Variationen dieser Frage immer wieder auftauchen und wir sie nicht als Duplikate schließen können, weil es nirgendwo eine zufriedenstellende Antwort gibt.
Amöbe sagt Reinstate Monica

Antworten:


11

Diese Antwort ist bewusst nicht mathematisch und richtet sich an nicht statistische Psychologen (etwa), die sich fragen, ob sie die Faktorwerte verschiedener Faktoren addieren / mitteln dürfen, um für jeden Befragten einen "zusammengesetzten Index" zu erhalten.

Das Summieren oder Mitteln der Bewertungen einiger Variablen setzt voraus, dass die Variablen derselben Dimension angehören und fungible Kennzahlen sind. (In der Frage sind "Variablen" Komponenten- oder Faktorbewertungen , die nichts daran ändern, da sie Beispiele für Variablen sind.)

Bildbeschreibung hier eingeben

(.8+.8)/2=.8(1.2+.4)/2=.8.8X+Y.XY.separat. Korrelierte Variablen, die dieselbe Dimension repräsentieren, können als wiederholte Messungen derselben Charakteristik und die Differenz oder Nichtäquivalenz ihrer Bewertungen als Zufallsfehler angesehen werden. Es wird deshalb warranded zu sum / Mittelwert der Noten , da Zufallsfehler zu erwarten sind gegenseitig aufzuheben in spe .

XY.

Bildbeschreibung hier eingeben

.82+.821.131.22+.421.26X=.8Y.=-.8X=0Y.=0

wXXich+wY.Y.ichXY.wXwY.sind für alle Befragten konstant i, was die Ursache für den Fehler ist. Um die bivariate Abweichung eines Befragten - in Form eines Kreises oder einer Ellipse - in Beziehung zu setzen, müssen Gewichte eingeführt werden, die von seinen Punktzahlen abhängen. Der zuvor betrachtete euklidische Abstand ist tatsächlich ein Beispiel für eine solche gewichtete Summe, wobei die Gewichte von den Werten abhängen. Und wenn es für Sie wichtig ist, ungleiche Varianzen der Variablen (z. B. der Hauptkomponenten, wie in der Frage) zu berücksichtigen, können Sie den gewichteten euklidischen Abstand berechnen, den Abstand, der in Abb. 2 gefunden wird, nachdem sich der Kreis verlängert hat.

|.8|+|.8|=1.6|1.2|+|.4|=1.6X=.8Y.=-.81.60

(Sie könnten sagen: "Ich werde alle Datenwerte positiv machen und die Summe (oder den Durchschnitt) mit gutem Gewissen berechnen, da ich die Entfernung nach Manhatten gewählt habe.", Aber denken Sie bitte - haben Sie Recht, den Ursprung frei zu verschieben? Hauptkomponenten oder -faktoren, B. unter der Bedingung extrahiert werden, dass die Daten auf den Mittelwert zentriert wurden, was sinnvoll ist. Ein anderer Ursprung hätte andere Komponenten / Faktoren mit anderen Punktzahlen hervorgebracht. Nein, in den meisten Fällen spielen Sie möglicherweise nicht mit dem Ursprung - dem Ort von "typischen Befragten" oder von "Zero-Level-Merkmal" - wie Sie Lust zu spielen.)

Zusammenfassend lässt sich sagen, dass , wenn das Ziel des zusammengesetzten Konstrukts darin besteht, die Positionen der Befragten in Bezug auf eine "Null" oder einen typischen Ort wiederzugeben, die Variablen jedoch kaum miteinander korrelieren, eine Art räumlicher Abstand von diesem Ursprung und keine mittlere (oder Summe) Gewichtung vorliegt oder ungewichtet, sollte gewählt werden.

Nun, der Mittelwert (Summe) ist sinnvoll, wenn Sie die (unkorrelierten) Variablen als alternative Modi betrachten, um dasselbe zu messen . Auf diese Weise ignorieren Sie bewusst die unterschiedlichen Eigenschaften der Variablen. Mit anderen Worten, Sie verlassen Abb. 2 bewusst zugunsten von Abb. 1: Sie "vergessen", dass die Variablen unabhängig sind. Dann - Summe oder Durchschnitt. Beispielsweise könnte die Punktzahl für "materielles Wohlergehen" und "emotionales Wohlergehen" gemittelt werden, ebenso die Punktzahl für "räumlicher IQ" und "verbaler IQ". Diese Art von rein pragmatisch, nicht zugelassene satistische Komposite werden als Batterieindizes bezeichnet (eine Sammlung von Tests oder Fragebögen, die nicht miteinander in Beziehung stehende Dinge oder korrelierte Dinge messen, deren Korrelationen wir ignorieren, wird als "Batterie" bezeichnet). Batterieindizes sind nur dann sinnvoll, wenn die Bewertungen dieselbe Richtung haben (z. B. werden sowohl Wohlstand als auch emotionale Gesundheit als "besserer" Pol angesehen). Ihr Nutzen außerhalb enger Ad-hoc-Einstellungen ist begrenzt.

Wenn es sich bei den Variablen um Zwischenbeziehungen handelt - sie sind erheblich miteinander korreliert und dennoch nicht stark genug, um sie als Duplikate oder Alternativen voneinander zu betrachten, addieren (oder mitteln) wir ihre Werte häufig gewichtet. Dann sollten diese Gewichte sorgfältig entworfen werden und sie sollten auf diese oder jene Weise die Korrelationen widerspiegeln. Dies tun wir zum Beispiel mittels PCA oder Faktoranalyse (FA), wo wir speziell Komponenten- / Faktor-Scores berechnen . Wenn Ihre Variablen selbst bereits Komponenten- oder Faktor-Scores sind (wie die OP-Frage hier sagt) und sie korreliert sind (wegen der schrägen Rotation), können Sie sie (oder direkt die Ladematrix) der PCA / FA zweiter Ordnung unterwerfen, um sie zu finden Geben Sie die Gewichte ein und ermitteln Sie den PC / Faktor zweiter Ordnung, der den "zusammengesetzten Index" für Sie liefert.

Wenn Ihre Komponenten- / Faktor-Scores jedoch nicht korreliert oder schwach korreliert waren, gibt es keinen statistischen Grund, sie weder direkt noch über Schlussgewichte zu summieren. Verwenden Sie stattdessen etwas Abstand. Das Problem mit der Distanz ist, dass es immer positiv ist: Sie können sagen, wie viel atypisch ein Befragter ist, können aber nicht sagen, ob er "über" oder "unter" ist. Dies ist jedoch der Preis, den Sie zahlen müssen, wenn Sie einen einzelnen Index aus dem Multi-Trait-Space herausfordern. Wenn Sie sowohl Abweichung als auch Zeichen in einem solchen Raum wünschen, würde ich sagen, dass Sie zu anspruchsvoll sind.

Im letzten Punkt fragt das OP, ob es richtig ist, nur die Punktzahl einer stärksten Variablen in Bezug auf ihre Varianz - in diesem Fall die erste Hauptkomponente - als einzigen Stellvertreter für den "Index" zu verwenden. Es ist sinnvoll, wenn dieser PC viel stärker ist als die anderen PCs. Man könnte dann fragen: "Wenn es so viel stärker ist, warum haben Sie dann nicht einfach nur die Sohle extrahiert / behalten?"


0

Erstellen eines zusammengesetzten Index mithilfe von PCA aus Zeitreihen- Links zu http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf .

In diesem Artikel auf Seite 19 erwähnen die Autoren eine Möglichkeit, einen nicht standardisierten Index (Non-Standarded Index, NSI) zu erstellen, indem sie das Verhältnis der von jedem Faktor erklärten Variation zur Gesamtvariation verwenden, das von den ausgewählten Faktoren erklärt wird. Dieser NSI wurde dann normalisiert.


6
In diesem Abschnitt auf Seite 19 geht es genau um die fragwürdige, problematische Addition von Äpfeln und Orangen, vor der Amöbe und ich in den obigen Kommentaren gewarnt haben. Die Summe der nicht korrelierten Variablen in einem Index hat kaum statistische Bedeutung.
TTNPHNS

1
Manchmal fügen wir Konstrukte / Skalen / Tests hinzu, die nicht korreliert sind und verschiedene Dinge messen. Das wäre der Batterieindex (Tests, die als sehr unterschiedlich / unkorreliert gelten, werden als "Batterie" bezeichnet). Ein Batterieindex könnte einen lokalen pragmatischen Sinn haben, obwohl ihm , wie im vorherigen Kommentar erwähnt, fast eine statistische Bedeutung fehlt .
TTNPHNS


-1 aufgrund dessen, was oben geschrieben steht.
Amöbe sagt Reinstate Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.