Ich habe zu zwei Zeitpunkten Wiederholungsmessungen in einer Stichprobe von Personen. Zum Zeitpunkt 1 sind 18.000 Personen und zum Zeitpunkt 2 13.000 Personen (5000 durch Nachverfolgung verloren).
Ich möchte ein zum Zeitpunkt 2 gemessenes Ergebnis Y (und das Ergebnis kann zum Zeitpunkt 1 nicht gemessen werden) auf einen zum Zeitpunkt 1 gemessenen Satz von Prädiktoren X zurückführen. Alle Variablen haben einige fehlende Daten. Das meiste davon scheint relativ zufällig zu sein, oder das Fehlen scheint durch die beobachteten Daten gut beschrieben zu sein. Die überwiegende Mehrheit der fehlenden Ergebnisse im Ergebnis Y ist jedoch auf den Verlust der Nachverfolgung zurückzuführen. Ich werde mehrere Imputationen (R :: Mäuse) verwenden und den vollständigen Datensatz verwenden, um Werte für X zu imputieren, aber ich habe 2 widersprüchliche Ratschläge bezüglich der Imputation von Y erhalten:
1) Imputiere Y aus X und V (V = nützliche Hilfsvariablen) in der vollständigen Stichprobe von 18k.
2) Setzen Sie Y nicht in Einzelpersonen unter, die für die Nachverfolgung verloren gegangen sind (und löschen Sie sie daher aus einer nachfolgenden Regressionsmodellierung).
Ersteres ist sinnvoll, weil Informationen Informationen sind. Warum also nicht alles verwenden? Letzteres macht aber auch auf intuitivere Weise Sinn - es scheint einfach falsch, das Ergebnis für 5000 Personen basierend auf Y ~ X + V zu unterstellen, um sich dann umzudrehen und Y ~ X zu schätzen.
Welches ist (mehr) richtig?
Diese vorherige Frage ist nützlich, geht jedoch nicht direkt auf das Fehlen von Folgemaßnahmen ein (obwohl die Antwort möglicherweise dieselbe ist; ich weiß es nicht).