Die Arbeit von Gary King, insbesondere sein Buch "Eine Lösung für das Problem der ökologischen Inferenz" (die ersten beiden Kapitel sind hier verfügbar ), wäre von Interesse (ebenso wie die zugehörige Software, die er für die ökologische Inferenz verwendet). King zeigt in seinem Buch, wie die Schätzungen von Regressionsmodellen unter Verwendung aggregierter Daten verbessert werden können, indem die potenziellen Grenzen untersucht werden, die Gruppierungen auf niedrigerer Ebene basierend auf verfügbaren aggregierten Daten haben. Die Tatsache, dass Ihre Daten meist kategoriale Gruppierungen sind, macht sie für diese Technik zugänglich. (Obwohl Sie sich nicht täuschen lassen, es ist nicht so sehr eine Omnibus-Lösung, wie Sie angesichts des Titels hoffen könnten!) Es gibt aktuellere Arbeiten, aber Kings Buch ist IMO der beste Ausgangspunkt.
Eine andere Möglichkeit wäre, nur die potenziellen Grenzen der Daten selbst darzustellen (in Karten oder Grafiken). So können Sie beispielsweise die Geschlechtsverteilung auf aggregierter Ebene (z. B. 5.000 Männer und 5.000 Frauen) melden lassen, und Sie wissen, dass diese aggregierte Ebene zwei verschiedene kleinräumige Einheiten von 9.000 und 1.000 Personen umfasst. Sie können dies dann als Kontingenztabelle des Formulars darstellen.
Men Women
Unit1 ? ? 9000
Unit2 ? ? 1000
5000 5000
Obwohl Sie nicht die Informationen in den Zellen für die Aggregationen der unteren Ebene haben, können wir aus den Grenzsummen minimale oder maximale potenzielle Werte für jede Zelle erstellen. In diesem Beispiel kann die Men X Unit1
Zelle also nur Werte zwischen 4.000 und 5.000 annehmen (immer dann, wenn die Randverteilungen ungleichmäßiger sind, je kleiner das Intervall möglicher Werte ist, die die Zellen annehmen). Anscheinend ist es schwieriger als ich erwartet hatte, die Grenzen der Tabelle zu erreichen ( Dobra & Fienberg, 2000 ), aber es scheint, dass eine Funktion in der eiPack
Bibliothek in R verfügbar ist ( Lau et al., 2007, S. 43 ).
Eine multivariate Analyse mit Daten auf aggregierter Ebene ist schwierig, da bei dieser Art von Daten unvermeidlich eine Aggregationsverzerrung auftritt. (Kurz gesagt, ich würde nur die Aggregationsverzerrung beschreiben, da viele verschiedene Prozesse zur Generierung von Daten auf individueller Ebene zu Assoziationen auf aggregierter Ebene führen könnten.) Eine Reihe von Artikeln in der American Sociological Reviewin den 1970er Jahren sind einige meiner Lieblingsreferenzen für die Themen (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974), obwohl kanonische Quellen zu diesem Thema sein können (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Ich denke, dass die Darstellung der potenziellen Grenzen, die Daten einnehmen könnten, möglicherweise anstößig sein könnte, obwohl Sie wirklich von den Einschränkungen aggregierter Daten für die Durchführung multivariater Analysen betroffen sind. Das hindert aber niemanden daran, dies in den Sozialwissenschaften zu tun (zum Guten oder zum Schlechten!)
Beachten Sie (wie Charlie in den Kommentaren sagte), dass Kings "Lösung" eine Menge Kritik erhalten hat (Anselin & Cho, 2002; Freedman et al., 1998). Obwohl diese Kritik nicht über die Mathematik der King-Methode aussagt, gilt dies eher für die Situationen, in denen die King-Methode die Aggregationsverzerrung immer noch nicht berücksichtigt (und ich stimme sowohl Freedman als auch Anselin darin zu, in welchen Situationen Daten vorliegen Die Sozialwissenschaften sind nach wie vor der Ansicht, dass sie weitaus häufiger sind als diejenigen, die den Annahmen von King entsprechen. Dies ist zum Teil der Grund, warum ich vorschlage, nur die Grenzen zu untersuchen (daran ist nichts auszusetzen), aber Rückschlüsse auf Korrelationen auf individueller Ebene aus solchen Daten zu ziehen, erfordert viel mehr Glaubenssprünge, die in den meisten Situationen letztendlich ungerechtfertigt sind.
Zitate
- Anselin, L. & WKT Cho (2002). Räumliche Auswirkungen und ökologische Schlussfolgerungen. Political Analysis 10 (3): 276 & ndash; 297.
- Dobra A. & SE Fienberg (2000). Grenzen für Zelleinträge in Kontingenztabellen bei Grenzsummen und zerlegbaren Graphen. Verfahren der Nationalen Akademie der Wissenschaften 97 (22): 11885-11892
- Firebaugh, G. (1978). Eine Regel zum Ableiten einzelner Beziehungen aus aggregierten Daten. American Sociological Review 43 (4): 557-572
- Fotheringham, AS & DW Wong (1991). Das Problem der veränderbaren Flächeneinheiten in der multivariaten statistischen Analyse. Umwelt und Planung A 23 (7): 1025-1044
- Freedman, DA, SP Klein, M. Ostland und MR Roberts (1998). Rezensierte Werke: Eine Lösung für das Problem der ökologischen Folgerung von G. King. Journal of the American Statistical Association 93 (444): 1518-1522. (PDF hier )
- Hammond, JL (1973) Zwei Fehlerquellen bei ökologischen Korrelationen. American Sociological Review 38 (6): 764-777
- Hannan, MT & amp; L. Burstein (1974). Schätzung aus gruppierten Beobachtungen. American Sociological Review 39 (3): 374 & ndash; 392
- King G. (1997). Eine Lösung für das ökologische Inferenzproblem: Rekonstruktion des individuellen Verhaltens aus aggregierten Daten . Princeton: Princeton University Press.
- Lau O., RT Moore und M. Kellerman (2007). eiPack: RXC Ecological Inference und höherdimensionales Datenmanagement. R News 7 (2): 43-47
- Oppenshaw, S. (1984). Das Problem mit modifizierbaren Flächeneinheiten . Norwich: Geobücher. ( PDF hier )
- Robinson, WS (1950). Ökologische Zusammenhänge und das Verhalten von Individuen. American Sociological Review 15 (3): 351 & ndash; 357. ( PDF hier )