Die mit R gebündelten US-Verhaftungsdaten sind hier nur ein Beispiel, aber ich stelle fest, dass die in Frage kommenden Belastungsberechnungen von einer PCA der Kovarianzmatrix stammen . Das liegt irgendwo zwischen willkürlich und unsinnig, da die Variablen auf verschiedenen Skalen gemessen werden.
Die Stadtbevölkerung sieht aus wie ein Prozent. Kalifornien ist 91% und am höchsten.
Die drei Variablen für Straftaten scheinen die Anzahl der Festnahmen für Straftaten zu sein, die im Verhältnis zur Bevölkerungszahl (vermutlich für einen bestimmten Zeitraum) ausgedrückt werden. Vermutlich ist irgendwo dokumentiert, ob es sich um Festnahmen pro 1000 oder 10000 oder was auch immer handelt.
Der Mittelwert der Angriffsvariablen in den angegebenen Einheiten liegt bei 171 und der Mittelwert des Mordes bei 8. Die Erklärung Ihrer Ladungen lautet also, dass das Muster zu einem großen Teil ein Artefakt ist: Es hängt von der sehr unterschiedlichen Variabilität der Variablen ab.
Obwohl es in den Daten Sinn macht, dass es viel mehr Festnahmen für Angriffe als für Morde usw. gibt, dominiert diese bekannte (oder nicht überraschende) Tatsache die Analyse.
Dies zeigt, dass Sie wie überall in der Statistik darüber nachdenken müssen, was Sie in einem PCA tun.
Wenn Sie weiter gehen:
Ich würde argumentieren, dass Prozent der Stadtbewohner in der Analyse besser weggelassen werden. Es ist kein Verbrechen, urban zu sein. es könnte natürlich als Proxy für kriminalitätsbeeinflussende Variablen dienen.
Eine auf einer Korrelationsmatrix basierende PCA wäre aus meiner Sicht sinnvoller. Eine andere Möglichkeit besteht darin, mit Logarithmen der Verhaftungsraten zu arbeiten, nicht mit Verhaftungsraten (alle Werte sind positiv; siehe unten).
Hinweis: Bei der Antwort von @ random_guy wird bewusst die Kovarianzmatrix verwendet.
Hier sind einige zusammenfassende Statistiken. Ich habe Stata benutzt, aber das ist ziemlich unwichtig.
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
urban_pop | 50 65.54 14.47476 32 91
murder | 50 7.788 4.35551 .8 17.4
rape | 50 21.232 9.366384 7.3 46
assault | 50 170.76 83.33766 45 337