Ich frage mich, ob jemand einen Einblick geben könnte, ob eine Warum-Imputation für fehlende Daten besser ist, als einfach verschiedene Modelle für Fälle mit fehlenden Daten zu erstellen. Besonders im Fall von [verallgemeinerten] linearen Modellen (ich kann vielleicht in nichtlinearen Fällen sehen, dass die Dinge anders sind)
Angenommen, wir haben das grundlegende lineare Modell:
Unser Datensatz enthält jedoch einige Datensätze, bei denen fehlt. In dem Vorhersagedatensatz, in dem das Modell verwendet wird, fehlen auch . Es scheint zwei Möglichkeiten zu geben:
Mehrere Modelle
Wir könnten die Daten in und Nicht- Fälle und für jeden ein eigenes Modell . Wenn wir annehmen, dass eng mit verwandt ist, kann das fehlende Datenmodell übergewichten , um die beste Zwei-Prädiktor-Vorhersage zu erhalten. Auch wenn die Fälle für fehlende Daten geringfügig unterschiedlich sind (aufgrund des Mechanismus für fehlende Daten), kann dieser Unterschied berücksichtigt werden. Auf der anderen Seite passen die beiden Modelle jeweils nur auf einen Teil der Daten und "helfen" sich nicht gegenseitig, sodass die Anpassung bei begrenzten Datensätzen möglicherweise schlecht ist.
Imputation
Regressions-Mehrfachimputation würde zuerst ausfüllen, indem ein Modell basierend auf und und dann zufällig abgetastet wird, um das Rauschen in den imputierten Daten aufrechtzuerhalten. Da dies wieder zwei Modelle sind, wird dies nicht einfach das gleiche sein wie die oben beschriebene Methode mit mehreren Modellen? Wenn es in der Lage ist zu übertreffen - woher kommt der Gewinn? Ist es nur so, dass die Anpassung für für den gesamten Satz erfolgt?
BEARBEITEN:
Während Steffans bisherige Antwort erklärt, dass die Anpassung des vollständigen Fallmodells an unterstellte Daten die Anpassung an vollständige Daten übertrifft, und es offensichtlich ist, dass das Gegenteil der Fall ist, gibt es immer noch einige Missverständnisse hinsichtlich der Vorhersage fehlender Daten.
Wenn ich das obige Modell habe, das sogar perfekt passt, wird es im Allgemeinen ein schreckliches Prognosemodell sein, wenn ich bei der Vorhersage nur Null einsetze. Stellen Sie sich zum Beispiel vor, dass dann ist völlig nutzlos ( ), wenn vorhanden ist, wäre aber ohne immer noch nützlich .
Die Schlüsselfrage, die ich nicht verstehe, ist: es besser, zwei Modelle zu erstellen, eines mit und eines mit , oder ist es besser, ein einzelnes (vollständiges) Modell zu erstellen und zu verwenden Anrechnung auf die Prognosedatensätze - oder sind das die gleichen?
Wenn man Steffans Antwort einbringt, scheint es besser zu sein, das vollständige auf einem unterstellten Trainingssatz aufzubauen, und umgekehrt ist es wahrscheinlich am besten, das fehlende Datenmodell auf dem vollständigen Datensatz zu , wobei verworfen wird. Unterscheidet sich dieser zweite Schritt von der Verwendung eines Imputationsmodells in den Prognosedaten?