Wie werden mithilfe der Hauptkomponentenanalyse Variablen für die Regression ausgewählt?


12

Ich verwende derzeit die Hauptkomponentenanalyse, um Variablen für die Modellierung auszuwählen. Momentan mache ich die Messungen A, B und C in meinen Experimenten. Was ich wirklich wissen möchte ist: Kann ich weniger Messungen machen und die Aufzeichnung von C und oder B beenden, um Zeit und Mühe zu sparen?

Ich stelle fest, dass alle drei Variablen stark auf meine erste Hauptkomponente geladen sind, was 60% der Varianz in meinen Daten ausmacht. Die Komponentenwerte geben an, dass diese Variablen in einem bestimmten Verhältnis (aA + bB + cC) addiert werden. Ich kann eine Punktzahl auf PC1 für jeden Fall in meinem Datensatz erhalten und diese Punktzahl als Variable für die Modellierung verwenden, aber das ermöglicht mir nicht, die Messung von B und C zu beenden.

Wenn ich die Ladungen von A und B und C auf PC1 quadriere, finde ich, dass die Variable A 65% der Varianz in PC1 ausmacht und die Variable B 50% der Varianz in PC1 ausmacht und die Variable C ebenfalls 50%, dh einige von der Varianz in PC1, die von jeder Variablen A, B und C berücksichtigt wird, wird mit einer anderen Variablen geteilt, wobei A etwas mehr ausmacht.

Ist es falsch zu glauben, dass ich nur die Variable A oder möglicherweise (aA + bB, falls erforderlich) für die Modellierung auswählen könnte, da diese Variable einen großen Teil der Varianz in PC1 beschreibt und dieser wiederum einen großen Teil der Varianz in die Daten?

Welchen Ansatz haben Sie in der Vergangenheit gewählt?

  • Einzelne Variable, die PC1 am schwersten belastet, selbst wenn es andere schwere Lader gibt?
  • Component Score auf PC1 mit allen Variablen, auch wenn es sich um Heavy Loader handelt?

Antworten:


14

Sie haben nicht angegeben, für welche "Modellierung" Sie planen, aber es hört sich so an, als würden Sie sich fragen, wie Sie unabhängige Variablen aus , B und C auswählen sollen, um beispielsweise eine vierte abhängige Variable W von ihnen zu regressieren .ABCW

Um zu sehen , dass dieser Ansatz kann schief gehen, sollten Sie drei unabhängige Normalerweise verteilt Variablen , Y und Z mit Einheitsvarianz. Für die wahre, zugrunde liegenden wählen Modell eine kleine Konstante β « 1 , eine wirklich kleine Konstante ε « β , und lassen Sie die (abhängige Variable) W = Z (plus ein wenig Fehler unabhängig vonXYZβ1ϵβW=Z , Y und Z ).XYZ

Angenommen , die unabhängigen Variablen , die Sie haben , sind , B = X - ε Y und C = β Z . Dann sind W und C stark korreliert (abhängig von der Varianz des Fehlers), weil jedes nahe an einem Vielfachen von Z liegt . Jedoch W ist entweder mit unkorrelierter A oder B . Weil β klein ist, ist die erste Hauptkomponente für { A , B , C }A=X+ϵYB=XϵYC=βZWCZWABβ{A,B,C}ist parallel zu mit dem Eigenwert 2 β . A und B belasten diese Komponente stark, und C belastet sie überhaupt nicht, da sie von X (und Y ) unabhängig ist . Wenn Sie jedoch C aus den unabhängigen Variablen entfernen und nur A und B übrig lassen , werden alle Informationen über die abhängige Variable weggeworfen , da W , A und BX2βABCXYCABWAB unabhängig sind!

This example shows that for regression you want to pay attention to how the independent variables are correlated with the dependent one; you can't get away just by analyzing relationships among the independent variables.


1
should this be A=X+ϵY not Z+ϵY?
shabbychef

@shabby Ja, danke. (Ich musste alle Variablennamen in einem Entwurf ändern, um sie mit den Namen des OP
abzugleichen,

4

Wenn Sie nur 3 Infusionen haben, warum möchten Sie diese reduzieren?

Das heißt, ist Ihre Stichprobe sehr klein (so dass 3 IVs eine Überanpassung riskieren)? Betrachten Sie in diesem Fall partielle kleinste Quadrate

Oder sind die Messungen sehr teuer (also möchten Sie in Zukunft nur noch eine IV messen)? In diesem Fall würde ich in Betracht ziehen, die verschiedenen Regressionen mit jeder IV einzeln und zusammen zu betrachten.

Oder hat jemand in Ihrer Vergangenheit den Wert von Sparsamkeit überbetont? In diesem Fall, warum nicht alle 3 IVs einschließen?

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.