Ich habe eine große Umfrage, in der die Schüler unter anderem nach dem Bildungsstand ihrer Mutter gefragt wurden. Einige haben es übersprungen, andere haben falsch geantwortet. Ich weiß das, weil dort eine Teilstichprobe der ersten befragten Mütter später befragt wurde und dieselbe Frage stellte. (Ich bin sicher, dass mit den Antworten der Mütter auch ein kleinerer Fehler verbunden ist.)
Meine Herausforderung besteht darin, zu entscheiden, wie diese zweite, zuverlässigere Datenquelle am besten genutzt werden kann. Zumindest kann ich damit fehlende Daten intelligenter unterstellen, als ich es könnte, wenn ich mich nur auf vollständige Fälle verlassen könnte. Aber wenn 3/4 der Kinder, deren Daten ich überprüfen kann und die antworten "Meine Mutter hat die Grundschule nie beendet", der Antwort ihrer Mutter widersprechen, sollte ich anscheinend die Imputation verwenden, um mehrere Datensätze zu erstellen, um die Unsicherheit dort zu erfassen. [fügte hinzu: Ich sagte 3/4, um einen Punkt zu machen, aber jetzt, wo ich die Daten überprüft habe, könnte ich Ihnen genauso gut sagen, dass näher an 40% nicht übereinstimmen]
Ich persönlich werde die Ausbildung der Mutter als Prädiktor in einem gemischten Modell verwenden, aber wenn jemand etwas zu anderen Situationen zu sagen hat, würde ich gerne auch etwas über sie lernen.
Ich würde gerne Ratschläge in Broadstrokes oder in den Einzelheiten erhalten. Vielen Dank!
Update : Ich lasse die Frage vorerst ungelöst, obwohl ich die Antworten von Will und Conjugate_Prior schätze, hoffe ich auf spezifischeres und technischeres Feedback.
Das folgende Streudiagramm gibt Ihnen eine Vorstellung davon, wie die beiden Variablen in den 10.000 Fällen zusammenhängen, in denen beide existieren. Sie sind in mehr als 100 Schulen verschachtelt. Sie korrelieren bei 0,78, Antwort des Schülers - Mittelwert: 5,12 sd = 2,05, Antwort der Mutter, Mittelwert = 5,02, sd = 1,92 Die Antwort des Schülers fehlt in etwa 15% der Fälle.