Für einen kürzlich durchgeführten Kaggle-Wettbewerb habe ich (manuell) 10 zusätzliche Funktionen für mein Trainingsset definiert, die dann zum Trainieren eines zufälligen Waldklassifikators verwendet werden. Ich habe mich entschieden, PCA für das Dataset mit den neuen Funktionen auszuführen, um zu sehen, wie sie miteinander verglichen werden. Ich fand heraus, dass ~ 98% der Varianz von der ersten Komponente (dem ersten Eigenvektor) getragen wurden. Anschließend habe ich den Klassifikator mehrmals geschult und dabei jeweils ein Merkmal hinzugefügt. Anschließend habe ich die Qualität der Klassifizierung anhand von Kreuzvalidierung und RMS-Fehler verglichen. Ich stellte fest, dass sich die Klassifizierungen mit jedem zusätzlichen Merkmal verbesserten und dass das Endergebnis (mit allen 10 neuen Merkmalen) weitaus besser war als der erste Durchlauf mit (sagen wir) 2 Merkmalen.
Warum hat sich die Qualität der Klassifikationen so stark verbessert, da PCA behauptet, dass ~ 98% der Varianz in der ersten Komponente meines Datensatzes enthalten sind?
Würde dies für andere Klassifikatoren gelten? HF-Skalierung über mehrere Kerne hinweg, daher ist das Trainieren viel schneller als bei (sagen wir) SVM.
Was wäre, wenn ich das Dataset in den Bereich "PCA" transformiert und den Klassifizierer für den transformierten Bereich ausgeführt hätte? Wie würden sich meine Ergebnisse ändern?