Stellen Sie sich ein klassisches Datenanalyseproblem vor, bei dem Sie ein Ergebnis und wie es mit einer Reihe von Prädiktoren . Die grundlegende Art der Anwendung ist hier
i ist ein Ergebnis auf Gruppenebene, beispielsweise die Kriminalitätsrate in Stadt .
Die Prädiktoren sind Merkmale auf Gruppenebene, z. B. demografische Merkmale der Stadt .
Das grundlegende Ziel ist die Anpassung eines Regressionsmodells (möglicherweise mit zufälligen Effekten, aber vergessen Sie dies vorerst):
Treten technische Schwierigkeiten auf, wenn einer (oder mehrere) der Prädiktoren das Ergebnis einer Umfrage sind, die für jede Einheit unterschiedliche Stichprobengrößen aufweist? Angenommen, ist eine Gesamtbewertung für Stadt , bei der es sich um die durchschnittliche Antwort einer Stichprobe von Personen aus Stadt Die Stichprobengrößen, auf denen diese Durchschnittswerte basieren, sind jedoch sehr unterschiedlich:
Da die Prädiktorvariablen in gewisser Weise nicht alle dieselbe Bedeutung für jede Stadt haben, befürchte ich, dass die Konditionierung dieser Variablen in einem Regressionsmodell, als wären sie alle "gleich", zu irreführenden Schlussfolgerungen führen könnte.
Gibt es einen Namen für diese Art von Problem? Wenn ja, gibt es Forschungen darüber, wie damit umzugehen ist?
Mein Gedanke ist, es als eine mit Fehler gemessene Prädiktorvariable zu behandeln und etwas in diese Richtung zu tun, aber die Messfehler weisen eine Heteroskedastizität auf, was sehr kompliziert wäre. Ich könnte darüber falsch denken oder es komplizierter machen als es ist, aber jede Diskussion hier wäre hilfreich.