Was können Sie tun, wenn Sie Prädiktorvariablen haben, die auf Gruppendurchschnitten mit unterschiedlichen Stichprobengrößen basieren?


14

Stellen Sie sich ein klassisches Datenanalyseproblem vor, bei dem Sie ein Ergebnis Yi und wie es mit einer Reihe von Prädiktoren . Die grundlegende Art der Anwendung ist hierXi1,...,Xip

  1. iYi ist ein Ergebnis auf Gruppenebene, beispielsweise die Kriminalitätsrate in Stadt .i

  2. Die Prädiktoren sind Merkmale auf Gruppenebene, z. B. demografische Merkmale der Stadt .i

Das grundlegende Ziel ist die Anpassung eines Regressionsmodells (möglicherweise mit zufälligen Effekten, aber vergessen Sie dies vorerst):

E(Yi|Xi)=β0+β1Xi1+...+βpXip

Treten technische Schwierigkeiten auf, wenn einer (oder mehrere) der Prädiktoren das Ergebnis einer Umfrage sind, die für jede Einheit unterschiedliche Stichprobengrößen aufweist? Angenommen, Xi1 ist eine Gesamtbewertung für Stadt i , bei der es sich um die durchschnittliche Antwort einer Stichprobe von Personen aus Stadt i Die Stichprobengrößen, auf denen diese Durchschnittswerte basieren, sind jedoch sehr unterschiedlich:

CitySample size120210033004553

Da die Prädiktorvariablen in gewisser Weise nicht alle dieselbe Bedeutung für jede Stadt haben, befürchte ich, dass die Konditionierung dieser Variablen in einem Regressionsmodell, als wären sie alle "gleich", zu irreführenden Schlussfolgerungen führen könnte.

Gibt es einen Namen für diese Art von Problem? Wenn ja, gibt es Forschungen darüber, wie damit umzugehen ist?

Mein Gedanke ist, es als eine mit Fehler gemessene Prädiktorvariable zu behandeln und etwas in diese Richtung zu tun, aber die Messfehler weisen eine Heteroskedastizität auf, was sehr kompliziert wäre. Ich könnte darüber falsch denken oder es komplizierter machen als es ist, aber jede Diskussion hier wäre hilfreich.


8
Dies wird als "heteroskedastische Fehler in Variablen" -Problem bezeichnet. (Dieser Ausdruck ist ein gutes Ziel für eine Google-Suche.) Kürzlich (2007) schlugen Delaigle und Meister in einem JASA-Artikel einen nichtparametrischen Kernel-Dichteschätzer vor . Eine Zusammenfassung einiger parametrischer Methoden (Methode der Momente und MLE) schlägt einige zusätzliche Ansätze vor: sciencedirect.com/science/article/pii/S1572312709000045 . (Ich bin mit den Recherchen nicht vertraut genug, um eine
verlässliche

1
@whuber +1 für beide Kommentare. Ich denke, "Errors-in-Variablen" war das fehlende Schlüsselwort, nach dem ich gesucht habe. Wenn im Folgenden niemand eine eindeutige Antwort gibt, die ich akzeptieren kann, schaue ich in der Literatur nach und schreibe zurück, was auch immer ich als Antwort tue.
Makro

Antworten:



0

Ein Weg, um damit umzugehen, wäre anzunehmen, dass jede Stadt eine Verteilung mit der gleichen Varianz für die einzelnen Antworten hat. Dann hätte die durchschnittliche Messung X i jeder Stadt für den Prädiktor eine Varianz σ 2 / n i , wobeiσ2Xiσ2/ni die Anzahl von Personen im Durchschnitt für Stadt i ist . Das wäre ein einfacher Weg, um mit der Heteroskedastizität umzugehen. Ich kenne keinen speziellen Namen für diese Form des Regressionsproblems.nii


Das erscheint vernünftig, obwohl ich gehofft hatte, den Messfehler überhaupt nicht modellieren zu müssen. Wenn ich in diese Richtung gehen würde, was würden Sie verwenden, um die Wirkung eines mit Fehler gemessenen Prädiktors abzuschätzen? Ich habe eine Methode namens SIMEX verwendet, aber dies scheint ungewöhnlich zu sein, und ich frage mich, ob es noch andere Optionen gibt.
Makro

@Macro Ich kenne keine spezielle Software zur Modellierung von Regressionen mit einer zu schätzenden Varianzfunktion.
Michael R. Chernick

3
Makro: Als Faustregel bei der homoskedastischen Fehler-in-Variablen-Regression gilt: Wenn die Fehler in den IVs im Vergleich zu den Fehlern in der DV gering sind, können Sie die erstere ignorieren und auf die normale Regression zurückgreifen. Auf diese Weise können Sie das Problem schnell und einfach beheben.
Whuber

1
@whuber, danke - das ist nützlich. Wenn diese Faustregel Sinn macht, dann wäre es im heteroskedastischen Fall sinnvoll, "wenn die größte Fehlervarianz in den IVs im Vergleich zur Fehlervarianz in den DVs klein ist, können Sie das Problem sicher ignorieren" eine vernünftige Faustregel, die eine Bedingung ist, die in den Daten, die ich betrachte, tatsächlich erfüllt sein kann.
Makro

1
@Michael, in den Daten, die ich betrachte, ist die Varianz der Messung, die gemittelt wird, nicht sehr groß. Ich müsste nachsehen, aber sagen wir malσ21Also ist die Varianz der Mittelwerte (wenn es vernünftig ist zu sagen, dass die Varianz über Einheiten hinweg konstant ist - eine andere Sache, die ich überprüfen müsste) 1/n, so reicht es zwischen (.05,1)für die Stichprobengrößen in meinem Datensatz. Die Fehlervarianz inY.ichist wahrscheinlich eine, vielleicht zwei Größenordnungen größer als diese (wieder muss ich prüfen).
Makro
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.