Wie kann ich Volkszählungsmikrodaten für kleine Gebiete mithilfe einer 1% igen Mikrodatenstichprobe im großen Maßstab simulieren und Statistiken im kleinen Gebiet aggregieren?

Ich möchte eine multivariate Analyse auf Einzelebene auf kleinen Ebenen der geografischen Aggregation (australische Volkszählungssammlungsbezirke) durchführen. Es ist klar, dass die Volkszählung auf diesen kleinen Aggregationsebenen aus Datenschutzgründen nicht verfügbar ist, daher untersuche ich andere Alternativen. Fast alle interessierenden Variablen sind kategorisch. Ich habe zwei Datensätze zur Verfügung:

Die 1% -Zählungsstichprobe ist auf einer viel größeren Ebene der räumlichen Aggregation verfügbar (ein Gebiet mit einer Bevölkerung von ~ 190.000 und einer großen räumlichen Trennung der Demografie).
Häufigkeitstabellen für die Variablen, die mich auf der Ebene kleiner Gebiete interessieren (500 kleine Gebiete, mittlerer Pop = 385, SD = 319, Median = 355).

Wie kann ich diese beiden Datensätze verwenden, um eine Bevölkerungsverteilung auf der Ebene kleiner Gebiete zu simulieren, die der tatsächlichen Bevölkerung des kleinen Gebiets so nahe wie möglich kommt?

Ich schätze, dass es durchaus Routinemethoden dafür geben kann; In diesem Fall wäre ein Verweis auf ein Lehrbuch oder relevante Zeitschriftenartikel sehr willkommen.

— fmark
quelle

möglicherweise verwandt (ich habe ein ähnliches Problem): stats.stackexchange.com/questions/14399/… Gibbs-Sampling könnte hier erforderlich sein.

— Mzuba

Vielleicht möchten Sie Ihre Frage auf der SRMSNET-Mailingliste der American Statistical Association stellen. Wenn Sie in Australien sind, würde ich mich an Ray Chambers wenden - ich denke, niemand kennt SAE besser als er auf der südlichen Hemisphäre :).

— StasK

Dieses Problem hängt eng mit dem "dasymetrischen Mapping" zusammen.

— whuber

Ich stimme @whuber zu, und dasymetrische Mapping kann auch für fmark von Interesse sein, wenn man das betreffende Material berücksichtigt. Leider unterscheidet es sich weitgehend von der ökologischen Inferenzliteratur, die ich in meiner Antwort zitiert habe (ich möchte nicht mehr Literatur anhäufen!). Was denkst du, fmark?

— Andy W

Einige dasymetrische Mapping-Techniken haben begonnen, Zusatzdaten zu verwenden, um zu versuchen, Daten auf kleinere Bereiche zu interpolieren. Die Ziele der ökologischen Inferenz und der dasymetrischen Kartierung sind etwas unterschiedlich (etwas analog zum Unterschied zwischen Vorhersage / Vorhersage und Inferenz). Ich werde einen weiteren Beitrag zu den Quellen schreiben, die ich gesammelt habe und von denen ich denke, dass sie ebenfalls von Interesse sind. Leider kann ich keinen nützlicheren Rat geben, als ein paar Literaturstellen zu zitieren. Es ist ein beliebtes zeitgenössisches Thema, und hoffentlich können Sie dazu beitragen!

— Andy W

Antworten:

Dasymetrische Mapping konzentriert sich hauptsächlich auf die Interpolation von Bevölkerungsschätzungen auf kleinere Gebiete als in derzeit verbreiteten Daten verfügbar (siehe diese Frage für eine Vielzahl nützlicher Referenzen zum Thema). Häufig wurde dies getan, indem einfach Gebiete (basierend auf Landmerkmalen) identifiziert wurden, in denen offensichtlich keine Bevölkerung vorhanden ist, und dann die Bevölkerungsdichte neu geschätzt wurde (ohne diese Gebiete). Ein Beispiel könnte sein, wenn sich in einer Stadt ein Gewässer befindet, ein anderes könnte sein, wenn Sie Industrielandparzellen identifizieren, auf denen keine Wohnbevölkerung leben kann. Neuere Ansätze zur dasymetrischen Kartierung beziehen andere Zusatzdaten in einen probabilistischen Rahmen ein, um Bevölkerungsschätzungen zuzuordnen (Kyriakidis, 2004; Liu et al., 2008; Lin et al., 2011; Zhang & Qiu, 2011).

Jetzt ist die Beziehung zu Ihrer Frage leicht zu erkennen. Sie möchten die Bevölkerungsschätzungen der kleinen Gebiete. Es sollte aber auch klar sein, wie es Ihre Ziele verfehlen kann. Sie möchten nicht nur die Bevölkerungsdaten, sondern auch die Merkmale dieser Populationen. Einer der Begriffe, die zur Beschreibung dieser Situation verwendet werden, ist das Problem der Änderung der Unterstützung (Cressie, 1996; Gotway & Young, 2002). In Anlehnung an die geostatistische Literatur, in der versucht wird, anhand von Punktproben Vorhersagen über ein bestimmtes Merkmal über einen weiten Bereich zu treffen, wurde in jüngster Zeit versucht, Flächendaten auf verschiedene Zielzonen zu interpolieren. Ein Großteil der Arbeit von Pierre Goovaerts konzentriert sich auf solche Area-to-Point-Kriging-Methoden, ein kürzlich in der Zeitschrift Geographical Analysis veröffentlichter Artikel hat mehrere Beispiele für die Methode angewendet verschiedene Themenmaterialien (Haining et al., 2010), und eine meiner Lieblingsanwendungen davon ist in diesem Artikel (Young et al., 2009).

Was ich zitiere, sollte jedoch kaum als Allheilmittel für das Problem angesehen werden. Letztendlich gelten viele der gleichen Probleme mit ökologischen Schlussfolgerungen und Aggregationsverzerrungen auch für die Ziele der Flächeninterpolation. Es ist wahrscheinlich, dass viele der Beziehungen zwischen den Daten auf Mikroebene einfach im Aggregationsprozess verloren gehen und solche Interpolationstechniken sie nicht wiederherstellen können. Auch der Prozess, durch den die Daten empirisch interpoliert werden (durch Schätzen von Variogrammen aus den Daten auf aggregierter Ebene), ist häufig voller Ad-hoc-Schritte, die den Prozess fragwürdig machen sollten (Goovaerts, 2008).

Leider poste ich dies in einer separaten Antwort, da sich die ökologische Inferenzliteratur und die Literatur zur dasymetrischen Kartierung und zum Kriging von Fläche zu Punkt nicht überlappen. Obwohl die Literatur zu ökologischen Schlussfolgerungen viele Implikationen für diese Techniken hat. Nicht nur die Interpolationstechniken unterliegen einer Aggregationsverzerrung, sondern auch die intelligenten dasymetrischen Techniken (die die Aggregatdaten verwenden, um Modelle zur Vorhersage der kleineren Bereiche anzupassen) sind wahrscheinlich einer Aggregationsverzerrung verdächtig. Die Kenntnis der Situationen, in denen eine Aggregationsverzerrung auftritt, sollte Aufschluss darüber geben, in welchen Situationen die Flächeninterpolation und die dasymetrische Abbildung weitgehend fehlschlagen (insbesondere im Hinblick auf die Identifizierung von Korrelationen zwischen verschiedenen Variablen auf disaggregierter Ebene).

Zitate

— Andy W.
quelle

Vielen Dank für den nützlichen Ausgangspunkt in der zeitgenössischen Literatur. Mir waren keine dasymetrischen Methoden bekannt, die mehr als nur die Bevölkerungsdichte neu gewichten. Deshalb werde ich mich eingehend damit befassen.

— Mark

Die Arbeit von Gary King, insbesondere sein Buch "Eine Lösung für das Problem der ökologischen Inferenz" (die ersten beiden Kapitel sind hier verfügbar ), wäre von Interesse (ebenso wie die zugehörige Software, die er für die ökologische Inferenz verwendet). King zeigt in seinem Buch, wie die Schätzungen von Regressionsmodellen unter Verwendung aggregierter Daten verbessert werden können, indem die potenziellen Grenzen untersucht werden, die Gruppierungen auf niedrigerer Ebene basierend auf verfügbaren aggregierten Daten haben. Die Tatsache, dass Ihre Daten meist kategoriale Gruppierungen sind, macht sie für diese Technik zugänglich. (Obwohl Sie sich nicht täuschen lassen, es ist nicht so sehr eine Omnibus-Lösung, wie Sie angesichts des Titels hoffen könnten!) Es gibt aktuellere Arbeiten, aber Kings Buch ist IMO der beste Ausgangspunkt.

Eine andere Möglichkeit wäre, nur die potenziellen Grenzen der Daten selbst darzustellen (in Karten oder Grafiken). So können Sie beispielsweise die Geschlechtsverteilung auf aggregierter Ebene (z. B. 5.000 Männer und 5.000 Frauen) melden lassen, und Sie wissen, dass diese aggregierte Ebene zwei verschiedene kleinräumige Einheiten von 9.000 und 1.000 Personen umfasst. Sie können dies dann als Kontingenztabelle des Formulars darstellen.

       Men     Women
Unit1   ?        ?    9000
Unit2   ?        ?    1000
       5000   5000

Obwohl Sie nicht die Informationen in den Zellen für die Aggregationen der unteren Ebene haben, können wir aus den Grenzsummen minimale oder maximale potenzielle Werte für jede Zelle erstellen. In diesem Beispiel kann die Men X Unit1Zelle also nur Werte zwischen 4.000 und 5.000 annehmen (immer dann, wenn die Randverteilungen ungleichmäßiger sind, je kleiner das Intervall möglicher Werte ist, die die Zellen annehmen). Anscheinend ist es schwieriger als ich erwartet hatte, die Grenzen der Tabelle zu erreichen ( Dobra & Fienberg, 2000 ), aber es scheint, dass eine Funktion in der eiPackBibliothek in R verfügbar ist ( Lau et al., 2007, S. 43 ).

Eine multivariate Analyse mit Daten auf aggregierter Ebene ist schwierig, da bei dieser Art von Daten unvermeidlich eine Aggregationsverzerrung auftritt. (Kurz gesagt, ich würde nur die Aggregationsverzerrung beschreiben, da viele verschiedene Prozesse zur Generierung von Daten auf individueller Ebene zu Assoziationen auf aggregierter Ebene führen könnten.) Eine Reihe von Artikeln in der American Sociological Reviewin den 1970er Jahren sind einige meiner Lieblingsreferenzen für die Themen (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974), obwohl kanonische Quellen zu diesem Thema sein können (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Ich denke, dass die Darstellung der potenziellen Grenzen, die Daten einnehmen könnten, möglicherweise anstößig sein könnte, obwohl Sie wirklich von den Einschränkungen aggregierter Daten für die Durchführung multivariater Analysen betroffen sind. Das hindert aber niemanden daran, dies in den Sozialwissenschaften zu tun (zum Guten oder zum Schlechten!)

Beachten Sie (wie Charlie in den Kommentaren sagte), dass Kings "Lösung" eine Menge Kritik erhalten hat (Anselin & Cho, 2002; Freedman et al., 1998). Obwohl diese Kritik nicht über die Mathematik der King-Methode aussagt, gilt dies eher für die Situationen, in denen die King-Methode die Aggregationsverzerrung immer noch nicht berücksichtigt (und ich stimme sowohl Freedman als auch Anselin darin zu, in welchen Situationen Daten vorliegen Die Sozialwissenschaften sind nach wie vor der Ansicht, dass sie weitaus häufiger sind als diejenigen, die den Annahmen von King entsprechen. Dies ist zum Teil der Grund, warum ich vorschlage, nur die Grenzen zu untersuchen (daran ist nichts auszusetzen), aber Rückschlüsse auf Korrelationen auf individueller Ebene aus solchen Daten zu ziehen, erfordert viel mehr Glaubenssprünge, die in den meisten Situationen letztendlich ungerechtfertigt sind.

Zitate

— Andy W.
quelle

Beachten Sie, dass andere die Herangehensweise von King an das Problem des ökologischen Irrtums kritisiert haben. David Freedman ist ein bemerkenswertes Beispiel. Hier ist die Antwort, die Freedman und seine Mitautoren auf das oben zitierte Buch von King geben: citeseerx.ist.psu.edu/viewdoc/… Natürlich hat King eine Antwort und Freedman et al. Ich habe keine Antwort auf die Antwort auf die Antwort ... Ich kann nicht genau herausfinden, was Sie versuchen und welche Daten Sie haben, aber ich bin im Allgemeinen sehr skeptisch gegenüber ökologischen Inferenzanalysen.

— Charlie

Ja, @Charlie, ich stimme zu (und ich mag Freedmans Einstellung zu diesem Thema im Allgemeinen besonders). Dies ist teilweise der Grund, warum ich am Ende meines Beitrags auf die allgemeine Literatur zur Aggregationsverzerrung verweise. Ich bin mir nicht ganz sicher, was Sie mit der Aussage "Ich kann nicht genau herausfinden, was Sie versuchen und welche Daten Sie haben, aber ich bin generell sehr skeptisch gegenüber ökologischen Inferenzanalysen" meinen in Bezug auf den König und Freedman, die sich beide darüber beschweren, dass sie keine Daten teilen?

— Andy W

@Andy, ist diese Technik dieselbe wie die, die Ökonomen als teilweise identifizierte Verteilungen kennen ( springer.com/statistics/statistical+theory+and+methods/book/… )?

— StasK

@ Andy, nein, entschuldige die Mehrdeutigkeit. Ich habe tatsächlich mit dem OP gesprochen. Was fehlt, wenn er Häufigkeitstabellen für kleine Gebiete hat und Statistiken für kleine Gebiete erhalten möchte? Ich denke, dass er nur die Ränder haben muss, aber nicht den Zellinhalt, wie Sie in Ihrem Beitrag vorschlagen.

— Charlie

@StasK, ich weiß es nicht. Ich werde später in dieser Woche prüfen, ob King auf Manski Bezug nimmt, wenn ich Zugang zu dem Buch habe. Es gibt wahrscheinlich einige Überschneidungen, wenn ökologische Schlussfolgerungen in der Zusammenfassung erwähnt werden. Eine weitere potenzielle (freie) Quelle, um die Assoziation zwischen den beiden zu untersuchen, könnte der Leser King sein, der auf "New Methods in Ecological Inference" ( vollständig auf seiner Website veröffentlicht) herausgegeben wurde

— Andy W

Ich bin mir nicht sicher, ob es in der Literatur eine genau definierte Antwort dafür gibt, da die Google-Suche grundsätzlich drei verwendbare Referenzen zur multivariaten Schätzung kleiner Gebiete liefert. Pfeffermann (2002) diskutiert diskrete Antwortvariablen in Abschnitt 4 des Papiers, aber dies werden univariate Modelle sein. Natürlich können Sie mit hierarchischen Bayes'schen Methoden ( Rao 2003, Kap. 10 ) alle möglichen Wunder vollbringen, aber wenn Sie am Ende nur Ihre Prioritäten replizieren (weil Sie so wenig Daten haben), wäre dies schrecklich Ergebnis Ihrer Simulationsübung. Außerdem behandelt Rao nur kontinuierliche Variablen.

Ich denke, die größte Herausforderung wird die Zerlegung der Kovarianzmatrix in Komponenten zwischen und innerhalb kleiner Bereiche sein. Bei einer Stichprobe von 1% haben Sie nur 3 Beobachtungen von Ihrer SAE, sodass es möglicherweise schwierig ist, eine stabile Schätzung der internen Komponente zu erhalten.

Wenn ich in Ihren Schuhen stecke, würde ich eine multivariate Erweiterung von Pfeffermanns Modell mit einem multivariaten Zufallseffekt der kleinen Fläche versuchen. Möglicherweise erhalten Sie hierfür ein hierarchisches Bayes'sches Modell, wenn nichts designbasiertes funktioniert.

UPDATE (um Andys Kommentar zu dieser Antwort zu adressieren): Die Bootstrap-Methoden für die Schätzung kleiner Gebiete ( Lahiri 2003 ) erstellen spezifisch eine plausible Population aus der Studie. Während der Schwerpunkt der Bootstrap-Übung auf der Schätzung der Abweichungen der Schätzungen für kleine Bereiche liegt, sollten die Verfahren für das veröffentlichte Problem von Interesse und relevant sein.

— StasK
quelle

Ich würde den Status einer Literatur nicht anhand einer Google-Suche bewerten. Ich bin mir nicht ganz sicher, ob der Autor in diesem Fall nach einer kleinen Flächenschätzung suchen würde. Soweit ich weiß, konzentriert sich diese Literatur darauf, entweder Vorhersagen von Merkmalen in kleinen Gebieten zu treffen ( Kriegler & Berk, 2010 ) oder Parameter in mehrstufigen Modellen basierend auf einer geringen Anzahl von Stichproben pro Aggregateinheit zu schätzen.

— Andy W

Ich bin mir nicht sicher, ob ich eine kleine Flächenschätzung durchführen möchte. Nach meinem Verständnis versucht die Schätzung kleiner Gebiete, von einigen Stichproben in einem kleinen Gebiet zu aggregierten zusammenfassenden Statistiken überzugehen. Ich suche das Gegenteil (von einer großflächigen Bevölkerungsverteilung und einer zusammenfassenden Statistik für kleine Gebiete zu einer simulierten kleinflächigen Bevölkerung). Lahiri 2003 scheint hier ein guter Ausgangspunkt zu sein.

— Mark