Im Rahmen eines Universitätsauftrages muss ich eine Datenvorverarbeitung für einen ziemlich großen, multivariaten (> 10) Rohdatensatz durchführen. Ich bin kein Statistiker im wahrsten Sinne des Wortes, also bin ich ein wenig verwirrt, was los ist. Entschuldigung im Voraus für die wahrscheinlich lächerlich einfache Frage - mein Kopf dreht sich, nachdem ich mir verschiedene Antworten angesehen und versucht habe, durch die Statistiken zu waten.
Ich habe gelesen, dass:
- Mit PCA kann ich die Dimensionalität meiner Daten reduzieren
- Dies geschieht durch Zusammenführen / Entfernen von Attributen / Dimensionen, die viel miteinander korrelieren (und daher ein wenig unnötig sind).
- Dies geschieht, indem Eigenvektoren anhand von Kovarianzdaten gefunden werden (dank eines netten Tutorials, das ich durchgearbeitet habe, um dies zu lernen).
Was toll ist.
Ich bin jedoch sehr bemüht zu sehen, wie ich dies praktisch auf meine Daten anwenden kann. Zum Beispiel (dies ist nicht der Datensatz, den ich verwenden werde, sondern ein Versuch mit einem anständigen Beispiel, mit dem Menschen arbeiten können), wenn ich einen Datensatz mit so etwas wie ... haben würde.
PersonID Sex Age Range Hours Studied Hours Spent on TV Test Score Coursework Score
1 1 2 5 7 60 75
2 1 3 8 2 70 85
3 2 2 6 6 50 77
... ... ... ... ... ... ...
Ich bin mir nicht ganz sicher, wie ich die Ergebnisse interpretieren würde.
Die meisten Tutorials, die ich online gesehen habe, scheinen mir eine sehr mathematische Sicht auf PCA zu geben. Ich habe einige Nachforschungen angestellt und sie durchgearbeitet - aber ich bin mir immer noch nicht ganz sicher, was das für mich bedeutet, der nur versucht, aus diesem Datenstapel, den ich vor mir habe, irgendeine Art von Bedeutung herauszuholen.
Durch einfaches Durchführen einer PCA für meine Daten (unter Verwendung eines Statistikpakets) wird eine NxN-Zahlenmatrix (wobei N die Anzahl der ursprünglichen Dimensionen ist) ausgespuckt, die für mich völlig griechisch ist.
Wie kann ich PCA machen und das, was ich bekomme, in einer Weise aufnehmen, die ich dann in Klartext in Bezug auf die ursprünglichen Dimensionen ausdrücken kann?