Imputation zur Berücksichtigung systematischer Fehler in den Umfrageantworten

Ich habe eine große Umfrage, in der die Schüler unter anderem nach dem Bildungsstand ihrer Mutter gefragt wurden. Einige haben es übersprungen, andere haben falsch geantwortet. Ich weiß das, weil dort eine Teilstichprobe der ersten befragten Mütter später befragt wurde und dieselbe Frage stellte. (Ich bin sicher, dass mit den Antworten der Mütter auch ein kleinerer Fehler verbunden ist.)

Meine Herausforderung besteht darin, zu entscheiden, wie diese zweite, zuverlässigere Datenquelle am besten genutzt werden kann. Zumindest kann ich damit fehlende Daten intelligenter unterstellen, als ich es könnte, wenn ich mich nur auf vollständige Fälle verlassen könnte. Aber wenn 3/4 der Kinder, deren Daten ich überprüfen kann und die antworten "Meine Mutter hat die Grundschule nie beendet", der Antwort ihrer Mutter widersprechen, sollte ich anscheinend die Imputation verwenden, um mehrere Datensätze zu erstellen, um die Unsicherheit dort zu erfassen. [fügte hinzu: Ich sagte 3/4, um einen Punkt zu machen, aber jetzt, wo ich die Daten überprüft habe, könnte ich Ihnen genauso gut sagen, dass näher an 40% nicht übereinstimmen]

Ich persönlich werde die Ausbildung der Mutter als Prädiktor in einem gemischten Modell verwenden, aber wenn jemand etwas zu anderen Situationen zu sagen hat, würde ich gerne auch etwas über sie lernen.

Ich würde gerne Ratschläge in Broadstrokes oder in den Einzelheiten erhalten. Vielen Dank!

Update : Ich lasse die Frage vorerst ungelöst, obwohl ich die Antworten von Will und Conjugate_Prior schätze, hoffe ich auf spezifischeres und technischeres Feedback.

Das folgende Streudiagramm gibt Ihnen eine Vorstellung davon, wie die beiden Variablen in den 10.000 Fällen zusammenhängen, in denen beide existieren. Sie sind in mehr als 100 Schulen verschachtelt. Sie korrelieren bei 0,78, Antwort des Schülers - Mittelwert: 5,12 sd = 2,05, Antwort der Mutter, Mittelwert = 5,02, sd = 1,92 Die Antwort des Schülers fehlt in etwa 15% der Fälle.

Geben Sie hier die Bildbeschreibung ein

data-imputation

— Michael Bishop
quelle

War aus Neugier die erste Antwort auf die Bildungsfrage "Meine Mutter hat die Grundschule nie beendet"? Wenn ja, würde ich mir Sorgen um die Genauigkeit der restlichen Testergebnisse für diese Testteilnehmer machen.

— Michelle

"Wie weit ist sie in der Schule gegangen?" - 1) Achte Klasse oder weniger

— Michael Bishop

Sie haben wahrscheinlich eine Untergruppe von Testteilnehmern, die die erste Antwortoption für jede Frage angekreuzt haben. Kannst du das überprüfen?

— Michelle

Diese Handlung ist sehr aufschlussreich. Es sieht ziemlich symmetrisch aus, was nicht zu erwarten ist, wenn tatsächlich ein paar Kinder nur die erste Antwort abgehakt haben. Wenn dies der Fall wäre, würden sich die Fälle in der unteren Reihe häufen. Natürlich garantiert "symmetrisch" nicht wirklich, aber es ist ein guter Anfang. Die starke Korrelation, die Sie zwischen der Reaktion von Mutter und Kind beobachten, stimmt auch damit überein.

— Will

Ahh. Aha. Dann würde ich auch (mehr als ein wenig) zögern, vorhandene Daten zu unterstellen, und würde empfehlen, dass dies trotz dieser Art von Argument überhaupt nicht erfolgt: gking.harvard.edu/gking/files/measure.pdf

— conjugateprior

Antworten:

Das erste, was Sie beachten müssen, ist, dass Ihre Variablen sind: "Was der Schüler über die Ausbildung der Mutter gesagt hat" und "Was die Mutter des Schülers über die Ausbildung der Mutter des Schülers gesagt hat". Nennen Sie sie S bzw. M und bezeichnen Sie das unbeobachtete wahre Bildungsniveau der Mutter als T.

S und M haben beide fehlende Werte und es ist nichts Falsches (modulo die Beobachtung unten) daran, M und S in ein Imputationsmodell zu setzen, sondern nur einen von ihnen in der nachfolgenden Analyse zu verwenden. Der umgekehrte Weg wäre immer nicht ratsam.

Dies unterscheidet sich von drei anderen Fragen:

Bedeutet ein fehlender Wert, dass die Schüler nicht so viel über ihre Mütter wissen oder nicht sagen wollen?
Wie benutze ich S und M, um etwas über T zu lernen?
Haben Sie die richtige Art von Fehlen, damit mehrere Imputationen funktionieren?

Unwissenheit und Fehlen

Sie könnten an T interessiert sein, müssen es aber nicht sein: Wahrnehmungen des Bildungsstands (über S und möglicherweise M) oder mangelndes Wissen der Schüler könnten kausal interessanter sein als T selbst. Die Imputation kann ein sinnvoller Weg für den ersten sein, kann aber für den zweiten sein oder auch nicht. Sie müssen entscheiden.

Lernen über T.

Angenommen, Sie interessieren sich tatsächlich für T. In Ermangelung einer Goldstandardmessung (da Sie manchmal an M zweifeln) ist es schwierig zu wissen, wie Sie S und M nicht arbitraily kombinieren können, um mehr über T zu erfahren. Wenn Sie es andererseits wären Wenn Sie bereit sind, das M als korrekt zu behandeln, wenn es verfügbar ist, können Sie S verwenden, um M in einem Klassifizierungsmodell vorherzusagen, das andere Informationen von den Schülern enthält, und dann M anstelle von S in der endgültigen Analyse verwenden. Hier geht es um die Auswahlverzerrung in den Fällen, in denen Sie trainiert haben, was zum dritten Problem führt:

Fehlen

Ob multiple Imputation funktionieren kann, hängt davon ab, ob Daten vollständig zufällig (MCAR) oder zufällig (MAR) fehlen. Fehlt S zufällig (MAR)? Vielleicht auch nicht, da sich die Schüler schämen könnten, auf den Mangel an Bildung ihrer Mutter zu antworten und die Frage zu überspringen. Dann bestimmt allein der Wert, ob er fehlt, und eine mehrfache Imputation kann hier nicht helfen. Auf der anderen Seite ist MAR möglicherweise vernünftiger , wenn die niedrige Bildung mit etwas übereinstimmt, das in der Umfrage gefragt und teilweise beantwortet wird, z. B. einem Einkommensindikator, und die mehrfache Imputation hat etwas in den Griff zu bekommen. Fehlt M zufällig? Gleiches gilt.

Selbst wenn Sie an T interessiert sind und einen Klassifizierungsansatz verfolgen, möchten Sie dennoch unterstellen, dass er zu diesem Modell passt.

— Konjugatprior
quelle

Wenn Sie davon ausgehen, dass die "Widerspruchsrate" für die gesamte Stichprobe dieselbe ist wie für die Teilstichprobe, deren Mütter befragt wurden, muss die Teilstichprobe zufällig gezogen worden sein. In Ihrer Beschreibung sagen Sie nichts, deshalb spreche ich dieses Problem an, weil ich denke, dass es wichtige Auswirkungen darauf hat, wie oder ob Sie diese Informationen aus der Teilstichprobe verwenden können, um Schlussfolgerungen über die gesamte Stichprobe von Studenten zu ziehen.

Es scheint mir, dass dieses Widerspruchsproblem drei Facetten hat.

1 ist die Widerspruchsrate. Ist es wirklich so, dass 3/4 der Schüler falsch geraten haben?

2 ist der Grad der Unrichtigkeit - es ist eine Sache zu sagen, dass Ihre Mutter die Grundschule nie abgeschlossen hat, als sie sie tatsächlich abgeschlossen hat, aber dort aufgehört hat, und eine ganz andere, dass sie die Grundschule nie abgeschlossen hat, als sie einen Doktortitel hat.

3 ist der Anteil der Probe, den Sie überprüfen können. Wenn Sie diese Schlussfolgerungen aus einer Teilstichprobe von 20 ziehen, sind die Schätzungen wahrscheinlich ziemlich instabil und wahrscheinlich nicht viel wert.

Es scheint mir, dass das, was Sie tun, von Ihrer Antwort auf diese Fragen und der Frage abhängt, die ich ursprünglich gestellt habe. Wenn zum Beispiel 1 ziemlich hoch und 3 ziemlich hoch ist, kann ich einfach das Teilmuster verwenden und damit fertig sein. Wenn 1 hoch, aber 2 niedrig ist, scheint das Problem nicht so schlimm zu sein, und es lohnt sich möglicherweise auch nicht, sich damit zu beschäftigen.

Es lohnt sich wahrscheinlich auch zu wissen, ob der Fehler zufällig oder systematisch ist. Wenn Schüler dazu neigen, die Bildung ihrer Mutter systematisch zu unterschätzen, ist dies problematischer, als wenn sie es manchmal einfach völlig falsch verstehen.

Ich habe ein paar Papiere unterstellt und es scheint, als würde ich mir dadurch immer mehr Ärger machen. Zumindest in meiner Region haben Gutachter die Methode oft nicht gut im Griff und sind daher misstrauisch gegenüber ihrer Verwendung. Ich denke, manchmal ist es aus Sicht der Veröffentlichung besser, das Problem einfach anzuerkennen und weiterzumachen. In diesem Fall geben Sie jedoch nicht wirklich fehlende Daten ein, sondern führen eine Art vorhergesagte Fehlervarianz für die Variable ein. Es ist eine sehr interessante Frage, und abgesehen von allen Bedenken bin ich mir nicht einmal sicher, wie ich vorgehen würde, wenn ich mich für die beste Vorgehensweise entscheiden würde

— Wille
quelle

Danke Will, ich habe einige Dinge in meinem ursprünglichen Beitrag geklärt. Die Teilstichprobe ist zufällig. Ich zog die 3/4 Statistik aus einem Hut, um einen Punkt zu machen. Der wahre Wert ist geringer. Ich kann ungefähr 10.000 Fälle überprüfen. Ich bin sicher, dass der Fehler nicht rein zufällig ist.

— Michael Bishop