Dimensionsreduktionstechniken für sehr kleine Stichprobengrößen

8

Ich habe 21 sozioökonomische Variablen und Variablen auf Makroebene (z. B. Prozentsatz der nicht erwerbstätigen Mütter im Alter von 24 bis 54 Jahren, Prozentsatz der Kinder im Alter von 3 bis 5 Jahren in Kindergärten usw.). Ich habe auch Daten über die Anteile der Großeltern, die eine intensive Kinderbetreuung angeboten haben. Die meisten der von mir ausgewählten sozioökonomischen Variablen korrelieren stark mit der Kinderbetreuung (zum Beispiel besteht eine negative Korrelation zwischen dem Anteil der teilzeitbeschäftigten Mütter und der Bereitstellung der Kinderbetreuung für Großeltern).

Im Idealfall möchte ich eine Typologie verschiedener Länder erstellen. Meine Hoffnung wäre es, eine Art Dimensionsreduktionstechnik zu verwenden, deren Komponenten oder Faktoren intuitiv sinnvoll wären (z. B. Einstellungen zu Familie und Geschlecht, Arbeitsmarktstruktur, Familienpolitik). Oder bewerten Sie alternativ, welcher der 21 Indikatoren auf Makroebene die Variabilität der Kinderbetreuung in den einzelnen Ländern am besten erklärt.

Mein Hauptproblem ist, dass ich nur 12 europäische Länder habe. Ich denke, dass PCA- und Faktoranalysen in so wenigen Fällen keine geeigneten Techniken sind. Hab ich recht? Mir wurde gesagt, ich solle versuchen, eine qualitative vergleichende Analyse oder eine Mehrfachkorrespondenzanalyse zu verwenden, obwohl nach meinem Verständnis die letzteren Techniken eher für binäre (oder kategoriale) Indikatoren auf Makroebene geeignet sind (während meine Prozentsätze oder kontinuierliche Variablen sind).

— Giorgio
quelle

2

Da Sie eine Typologie wünschen, klingt dies eher nach einem Clusteranalyseproblem als nach einer Dimensionsreduzierung. Mit Ihren begrenzten Daten könnten Sie diese und einige grundlegende Handlungen verwenden, um die Geschichte zu erzählen - aber Sie stehen hier eher auf qualitative Forschungsmethoden als auf Quantität.

— Peter Ellis

Vielen Dank. Ich habe auch über die Clusteranalyse nachgedacht, obwohl das Problem, so viele Variablen und so wenige Fälle zu haben, weiterhin besteht. Ich denke, ich werde mich dann an grundlegende Pläne halten und meinen Chef davon überzeugen, dass nichts aufregenderes zu tun ist (wie ich immer insgeheim vermutet habe).

— Giorgio

1

Ich denke, @PeterEllis hat Recht damit, was Sie tun möchten. Sie können jedoch PCA und FA für kleine Datenmengen ausführen. Beide Methoden hängen von Korrelationen ab und eine Korrelation ist auch bei 12 Beobachtungen gültig. Die Korrelationen können jedoch möglicherweise nicht sehr gut geschätzt werden.

— Peter Flom

5

Wie aus Peter Ellis 'Kommentar / Antwort hervorgeht, sprechen Sie von Dimensionsreduktion und nicht von Datenreduktion. Sie haben die Anzahl der Datenpunkte nur um die Größe des Kovariatenraums geändert. Jetzt hat Peter Flom Recht, dass die PCA- und FA-Methoden mit kleinen Stichprobengrößen ausprobiert werden können, aber es sind nicht nur die Korrelationen, die wahrscheinlich schlecht geschätzt werden, sondern auch, dass Sie dazu verleitet werden könnten, in zu niedrige Dimensionen zu fallen, weil Merkmale möglicherweise häufiger auftreten stark korreliert, als es sich bei einer größeren Stichprobe herausgestellt hätte. Ich würde es nicht empfehlen.

— Michael R. Chernick
quelle

1

Vielen Dank. Sorry, ich meinte ja Dimensionsreduzierung! Ich stimme auch zu, dass PCA und FA in nur 12 Fällen am besten vermieden werden sollten.

— Giorgio

1

+1, um darauf hinzuweisen, dass bei sehr kleinen Stichprobengrößen die Stichprobenkorrelationen normalerweise recht hoch sind. Als extremes Beispiel haben Sie bei eine sehr gute Chance, eine nahezu perfekte Korrelation zu erhalten. Durch wiederholtes Eingeben wird dies deutlich. Außerdem ist mir aufgefallen, dass Sie heute eine Bearbeitung überprüft haben - danke, dass Sie sich angemeldet haben!

n = 3

$n=3$ cor( rnorm(3), rnorm(3) )R

— Makro

@Macro und mit n = 2 ist eine Korrelation von +1 oder -1 garantiert.

— Michael R. Chernick

5

Ich würde mich für die Co-Trägheitsanalyse entscheiden, die eine unausgesprochene Variante der kanonischen Analyse ist . Dies würde Ihnen eine lineare Kombination der 21 Variablen geben, die die höchste Ko-Trägheit mit einer linearen Kombination von Kinderbetreuungsdaten aufweist (oder mit der Kinderbetreuung, wenn es sich um eine einzelne quantitative Variable handelt). Der Trick beim Arbeiten mit Ko-Trägheit anstelle von Korrelation besteht darin, dass Sie die Berechnungen immer noch durchführen können, wenn mehr Variablen als Beobachtungen vorhanden sind.

Leider ist die CIA nicht sehr weit verbreitet. Es wurde für die Ökologie entwickelt, wo es normalerweise mehr Variablen als Beobachtungsstellen gibt. Einige technische Informationen finden Sie in Dray, Chessel und Thioulouse, Ecology 84 (11), 3078-89, 2003 .

Das heißt, die anderen Kommentare / Antworten sind richtig, dass 12 eine relativ kleine Zahl ist und Sie damit leben müssen ...

— gui11aume
quelle

2

Unter Berücksichtigung dieses Problems wurde eine regulierte explorative Faktoranalyse entwickelt . Den Autoren steht Matlab-Code zur Verfügung.

— M Adams
quelle