Was ist der Vorteil der Imputation gegenüber der Erstellung mehrerer Modelle in der Regression?

Ich frage mich, ob jemand einen Einblick geben könnte, ob eine Warum-Imputation für fehlende Daten besser ist, als einfach verschiedene Modelle für Fälle mit fehlenden Daten zu erstellen. Besonders im Fall von [verallgemeinerten] linearen Modellen (ich kann vielleicht in nichtlinearen Fällen sehen, dass die Dinge anders sind)

Angenommen, wir haben das grundlegende lineare Modell:

$Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon$

Unser Datensatz enthält jedoch einige Datensätze, bei denen fehlt. In dem Vorhersagedatensatz, in dem das Modell verwendet wird, fehlen auch . Es scheint zwei Möglichkeiten zu geben: $X_3$ $X_3$

Mehrere Modelle

Wir könnten die Daten in und Nicht- Fälle und für jeden ein eigenes Modell . Wenn wir annehmen, dass eng mit verwandt ist, kann das fehlende Datenmodell übergewichten , um die beste Zwei-Prädiktor-Vorhersage zu erhalten. Auch wenn die Fälle für fehlende Daten geringfügig unterschiedlich sind (aufgrund des Mechanismus für fehlende Daten), kann dieser Unterschied berücksichtigt werden. Auf der anderen Seite passen die beiden Modelle jeweils nur auf einen Teil der Daten und "helfen" sich nicht gegenseitig, sodass die Anpassung bei begrenzten Datensätzen möglicherweise schlecht ist. $X_3$ $X_3$ $X_3$ $X_2$ $X_2$

Imputation

Regressions-Mehrfachimputation würde zuerst ausfüllen, indem ein Modell basierend auf und und dann zufällig abgetastet wird, um das Rauschen in den imputierten Daten aufrechtzuerhalten. Da dies wieder zwei Modelle sind, wird dies nicht einfach das gleiche sein wie die oben beschriebene Methode mit mehreren Modellen? Wenn es in der Lage ist zu übertreffen - woher kommt der Gewinn? Ist es nur so, dass die Anpassung für für den gesamten Satz erfolgt? $X_3$ $X_1$ $X_2$ $X_1$

BEARBEITEN:

Während Steffans bisherige Antwort erklärt, dass die Anpassung des vollständigen Fallmodells an unterstellte Daten die Anpassung an vollständige Daten übertrifft, und es offensichtlich ist, dass das Gegenteil der Fall ist, gibt es immer noch einige Missverständnisse hinsichtlich der Vorhersage fehlender Daten.

Wenn ich das obige Modell habe, das sogar perfekt passt, wird es im Allgemeinen ein schreckliches Prognosemodell sein, wenn ich bei der Vorhersage nur Null einsetze. Stellen Sie sich zum Beispiel vor, dass dann ist völlig nutzlos ( ), wenn vorhanden ist, wäre aber ohne immer noch nützlich . $X_2 = X_3+\eta$ $X_2$ $\beta_2 = 0$ $X_3$ $X_3$

Die Schlüsselfrage, die ich nicht verstehe, ist: es besser, zwei Modelle zu erstellen, eines mit und eines mit , oder ist es besser, ein einzelnes (vollständiges) Modell zu erstellen und zu verwenden Anrechnung auf die Prognosedatensätze - oder sind das die gleichen? $(X_1, X_2)$ $(X_1, X_2, X_3)$

Wenn man Steffans Antwort einbringt, scheint es besser zu sein, das vollständige auf einem unterstellten Trainingssatz aufzubauen, und umgekehrt ist es wahrscheinlich am besten, das fehlende Datenmodell auf dem vollständigen Datensatz zu , wobei verworfen wird. Unterscheidet sich dieser zweite Schritt von der Verwendung eines Imputationsmodells in den Prognosedaten? $X_3$

regression missing-data data-imputation

— Corone
quelle

Antworten:

Ich denke, der Schlüssel hier ist das Verständnis des fehlenden Datenmechanismus. oder zumindest einige ausschließen. Das Erstellen separater Modelle ähnelt dem Behandeln fehlender und nicht fehlender Gruppen als Zufallsstichproben. Wenn das Fehlen von X3 mit X1 oder X2 oder einer anderen nicht beobachteten Variablen zusammenhängt, sind Ihre Schätzungen wahrscheinlich in jedem Modell verzerrt. Warum nicht mehrere Imputationen für den Entwicklungsdatensatz verwenden und die kombinierten Koeffizienten für einen mehrfach imputierten Vorhersagesatz verwenden? Durchschnitt über die Vorhersagen und Sie sollten gut sein.

— Zuverlässige Forschung
quelle

Wenn das Fehlen jedoch mit X1 oder X2 zusammenhängt, ist es sicherlich gut, zwei separate Modelle zu haben - da diese Informationen enthalten sein werden. Das heißt, wenn ich in Zukunft einen fehlenden X3 bekomme, weiß ich, dass ich in die richtige Richtung voreingenommen bin.

— Corone

Ich gehe davon aus, dass Sie daran interessiert sind, unvoreingenommene Schätzungen der Regressionskoeffizienten zu erhalten. Die Analyse der vollständigen Fälle liefert unvoreingenommene Schätzungen Ihrer Regressionskoeffizienten, vorausgesetzt , die Wahrscheinlichkeit, dass X3 fehlt, hängt nicht von Y ab. Dies gilt auch dann, wenn die Wahrscheinlichkeit des Fehlens von X1 oder X2 abhängt, und für jede Art von Regressionsanalyse.

Natürlich können die Schätzungen ineffizient sein, wenn der Anteil der vollständigen Fälle gering ist. In diesem Fall können Sie die Mehrfachimputation von X3 bei X2, X1 und Y verwenden, um die Genauigkeit zu erhöhen. Siehe White and Carlin (2010) Stat Med für Details.

— Stef van Buuren
quelle

Ah, geht es bei der Imputation darum, die richtigen Koeffizienten zu finden? Die Koeffizienten selbst interessieren mich nicht - ich möchte nur meine Vorhersagekraft für neue Daten maximieren (die möglicherweise auch fehlen)

— Corone

Das ist gut. Um eine maximale Vorhersagekraft zu erreichen, möchten Sie auch präzise und unvoreingenommene Schätzungen der Modellkoeffizienten.

— Stef van Buuren

Wenn ich nur die vollständigen Fälle verwende, kann ich dieses Modell nicht zur Vorhersage verwenden, wenn Daten fehlen, da die Koeffizienten im Allgemeinen falsch sind (z. B. wenn eine Korrelation zwischen X2 und X3 besteht). Ich muss daher entweder X3 bei der Vorhersage unterstellen oder ein zweites Modell in nur X1 und X2 erstellen. Die Frage ist, ob dies zu unterschiedlichen Vorhersagen führt und welche besser ist.

— Corone

Ah, ich glaube, ich verstehe einen Punkt, den Sie ansprechen: Wenn ich das Modell für die vollständige Fallvorhersage mithilfe von Imputation anpasse, verbessert dies die vollständige Fallvorhersage, anstatt sie nur mit den Konkurrenzfällen abzugleichen. Die verbleibende Frage ist, was für die unvollständigen Fälle am besten ist.

— Corone

Angenommen, beta_1 = beta_2 = 0 und beta_3 = 1. Die Verwendung von nur X1 und X2 sagt eine Konstante voraus, während die Vorhersage unter Verwendung von X3 einen Teil der Varianz von Y erklärt und somit zu einer Verringerung des Restfehlers führt. Somit liefert die unterstellte Version bessere Vorhersagen.

— Stef van Buuren

Eine Studie aus Harvard schlägt eine mehrfache Imputation mit fünf Prognosen der fehlenden Daten vor (hier die Referenz http://m.circoutcomes.ahajournals.org/content/3/1/98.full ). Selbst dann erinnere ich mich an Kommentare, dass Imputationsmodelle möglicherweise immer noch keine Deckungsintervalle für die Modellparameter erzeugen, die nicht die wahren zugrunde liegenden Werte enthalten!

Vor diesem Hintergrund erscheint es am besten, fünf einfache naive Modelle für den fehlenden Wert zu verwenden (vorausgesetzt, dass sie in der aktuellen Diskussion nicht zufällig fehlen), die eine gute Streuung der Werte ergeben, sodass die Abdeckungsintervalle zumindest die wahren Parameter enthalten können .

Meine Erfahrung in der Stichprobentheorie zeigt, dass häufig viele Ressourcen für die Unterabtastung der Nichtantwortpopulation aufgewendet werden, die sich manchmal sehr von der Antwortpopulation zu unterscheiden scheint. Daher würde ich eine ähnliche Übung zur Regression fehlender Werte mindestens einmal in dem jeweiligen Anwendungsbereich empfehlen. Die bei einer solchen Untersuchung der fehlenden Daten nicht wiederhergestellten Beziehungen können für die Erstellung besserer Prognosemodelle für fehlende Daten für die Zukunft von historischem Wert sein.

— AJKOER
quelle