Ich habe die Grundlagen der Hauptkomponentenanalyse aus Tutorial1 , Link1 und Link2 gelesen .
Ich habe einen Datensatz von 100 Variablen (einschließlich der Ausgabevariablen Y), möchte die Variablen durch PCA auf 40 reduzieren und dann die Variable Y unter Verwendung dieser 40 Variablen vorhersagen.
Problem 1: Nachdem ich Hauptkomponenten erhalten und die ersten 40 Komponenten ausgewählt habe, erhalte ich eine Funktion, die zu den Daten passt, wenn ich eine Regression darauf anwende. Aber wie kann man eine Variable Y aus den Originaldaten vorhersagen? Um die Variable Y vorherzusagen, habe ich (100-1) Variablen am Eingang, und woher weiß ich, welche 40 Variablen ich aus meinen ursprünglichen 100-1-Variablen auswählen soll?
Problem 2: Ich mache eine Umkehrung der PCA und erhalte die Daten von diesen 40 Hauptkomponenten zurück. Die Daten werden jedoch geändert, da ich nur die ersten 40 Komponenten ausgewählt habe. Ist es sinnvoll, auf diese Daten eine Regression anzuwenden?
Ich benutze Matlab / Octave.