Ich verwende derzeit die Hauptkomponentenanalyse, um Variablen für die Modellierung auszuwählen. Momentan mache ich die Messungen A, B und C in meinen Experimenten. Was ich wirklich wissen möchte ist: Kann ich weniger Messungen machen und die Aufzeichnung von C und oder B beenden, um Zeit und Mühe zu sparen?
Ich stelle fest, dass alle drei Variablen stark auf meine erste Hauptkomponente geladen sind, was 60% der Varianz in meinen Daten ausmacht. Die Komponentenwerte geben an, dass diese Variablen in einem bestimmten Verhältnis (aA + bB + cC) addiert werden. Ich kann eine Punktzahl auf PC1 für jeden Fall in meinem Datensatz erhalten und diese Punktzahl als Variable für die Modellierung verwenden, aber das ermöglicht mir nicht, die Messung von B und C zu beenden.
Wenn ich die Ladungen von A und B und C auf PC1 quadriere, finde ich, dass die Variable A 65% der Varianz in PC1 ausmacht und die Variable B 50% der Varianz in PC1 ausmacht und die Variable C ebenfalls 50%, dh einige von der Varianz in PC1, die von jeder Variablen A, B und C berücksichtigt wird, wird mit einer anderen Variablen geteilt, wobei A etwas mehr ausmacht.
Ist es falsch zu glauben, dass ich nur die Variable A oder möglicherweise (aA + bB, falls erforderlich) für die Modellierung auswählen könnte, da diese Variable einen großen Teil der Varianz in PC1 beschreibt und dieser wiederum einen großen Teil der Varianz in die Daten?
Welchen Ansatz haben Sie in der Vergangenheit gewählt?
- Einzelne Variable, die PC1 am schwersten belastet, selbst wenn es andere schwere Lader gibt?
- Component Score auf PC1 mit allen Variablen, auch wenn es sich um Heavy Loader handelt?