Ich habe einen Datensatz mit 11 Variablen und PCA (orthogonal) wurde gemacht, um die Daten zu reduzieren. Die Wahl der Anzahl der Komponenten, die beibehalten werden sollen, ergab sich für mich aus meinem Fachwissen und dem Geröllplot (siehe unten), dass zwei Hauptkomponenten (PCs) ausreichten, um die Daten zu erläutern, und die übrigen Komponenten nur weniger aussagekräftig waren.
Geröllplot mit paralleler Analyse: Beobachtete Eigenwerte (grün) und simulierte Eigenwerte basierend auf 100 Simulationen (rot). Die Geröllkurve schlägt 3 PCs vor, während der Paralleltest nur die ersten beiden PCs vorschlägt.
Wie Sie sehen, konnten nur 48% der Varianz von den ersten beiden PCs erfasst werden.
Beobachtungen in der ersten Ebene, die mit den ersten beiden PCs durchgeführt wurden, ergaben drei verschiedene Cluster unter Verwendung von hierarchischem agglomerativem Clustering (HAC) und K-Mittel-Clustering. Diese drei Cluster erwiesen sich als sehr relevant für das betreffende Problem und stimmten auch mit anderen Ergebnissen überein. Abgesehen von der Tatsache, dass nur 48% der Varianz erfasst wurden, war alles andere in Ordnung.
Einer meiner beiden Gutachter sagte: Man kann sich nicht sehr auf diese Ergebnisse verlassen, da nur 48% der Varianz erklärt werden konnten und diese geringer als erforderlich ist.
Frage
Gibt es einen erforderlichen Wert dafür, wie viel Varianz von PCA erfasst werden soll, um gültig zu sein? Kommt es nicht auf das Fachwissen und die verwendete Methodik an? Kann jemand den Wert der gesamten Analyse nur anhand des bloßen Wertes der erklärten Varianz beurteilen?
Anmerkungen
- Daten sind 11 Variablen von Genen, die mit einer sehr sensitiven molekularbiologischen Methode, der quantitativen Echtzeit-Polymerasekettenreaktion (RT-qPCR), gemessen wurden.
- Die Analysen wurden unter Verwendung von R durchgeführt.
- Antworten von Datenanalysten, die aufgrund ihrer persönlichen Erfahrung mit praktischen Problemen in den Bereichen Microarray-Analyse, Chemometrie, spektrometrische Analyse oder Ähnlichem arbeiten, werden sehr geschätzt.
- Bitte unterstützen Sie Ihre Antwort so oft wie möglich mit Referenzen.