Ich bin auf ein Szenario gestoßen, in dem ich 10 Signale / Person für 10 Personen (also 100 Samples) mit 14000 Datenpunkten (Dimensionen) habe, die ich an einen Klassifikator übergeben muss. Ich möchte die Dimensionalität dieser Daten reduzieren, und PCA scheint der richtige Weg zu sein. Ich konnte jedoch nur Beispiele für PCA finden, bei denen die Anzahl der Proben größer ist als die Anzahl der Dimensionen. Ich verwende eine PCA-Anwendung, die die PCs mit SVD findet. Wenn ich meinen 100x14000-Datensatz übergebe, werden 101 PCs zurückgegeben, sodass die überwiegende Mehrheit der Dimensionen offensichtlich ignoriert wird. Das Programm zeigt an, dass die ersten 6 PCs 90% der Varianz enthalten.
Ist es eine vernünftige Annahme, dass diese 101 PCs im Wesentlichen die gesamte Varianz enthalten und die verbleibenden Abmessungen vernachlässigbar sind?
Eine der Veröffentlichungen, die ich gelesen habe, behauptet, dass sie unter Verwendung eines ähnlichen (wenn auch geringfügig schlechteren) Datensatzes als meines in der Lage waren, 4500 Dimensionen auf 80 zu reduzieren und 96% der ursprünglichen Informationen beizubehalten. Das Papier überflog die Details der verwendeten PCA-Technik, es waren nur 3100 Proben verfügbar, und ich habe Grund zu der Annahme, dass weniger Proben verwendet wurden, um die PCA tatsächlich durchzuführen (um Verzerrungen aus der Klassifizierungsphase zu entfernen).
Fehlt mir etwas oder wird PCA auf diese Weise bei Datensätzen mit hoher Dimensionalität und geringer Stichprobengröße verwendet? Jede Rückmeldung wäre sehr dankbar.