Ich bin mit der Verwendung von Erkenntnissen aus der Zufallsmatrixtheorie vertraut, um die Anzahl der Hauptkomponenten aus der PCA einer Kovarianz- / Korrelationsmatrix zu bestimmen, die zur Bildung von Faktoren verwendet werden sollen.
Wenn der dem ersten PC zugeordnete Eigenwert groß ist, bedeutet dies, dass die verbleibenden Eigenwerte klein sein müssen (da die Summe der Eigenwerte der Spur der Korrelationsmatrix entsprechen muss). Wenn der erste PC groß genug ist, ist es daher möglich, dass alle diese Eigenwerte unterhalb der unteren Grenzen der Marcenko-Pastur-Verteilung liegen. Dies macht Sinn, dass sie nicht zufällig sind, sondern weil der erste Eigenwert sehr groß ist. Dies bedeutet jedoch nicht, dass sie wichtige Informationen enthalten. Es wäre vielmehr sinnvoll, stattdessen die Frage zu stellen: "Wenn der erste PC eine große Zahl ist, wie würde die Verteilung der verbleibenden Eigenwerte aussehen, wenn zufällige Daten für sie verantwortlich wären?"
Gibt es Forschungsergebnisse, die sich mit diesem Problem befassen? Wenn es möglich ist, die Marcenko-Pastur-Verteilung von der Kenntnis eines oder mehrerer Eigenwerte abhängig zu machen, wäre es möglich, iterativ vorzugehen, um zu bestimmen, ob die Faktoren signifikante Informationen widerspiegeln.