Die von Ihnen beschriebene Technik wird als Imputation durch sequentielle Regressionen oder multiple Imputation durch verkettete Gleichungen bezeichnet. Die Technik wurde von Raghunathan (2001) entwickelt und in ein gut funktionierendes R-Paket namens mice
(van Buuren, 2012) implementiert .
Ein Aufsatz von Schafer und Graham (2002) erklärt gut, warum mittlere Imputation und listenweises Löschen (was Sie als Zeilenausschluss bezeichnen) normalerweise keine gute Alternative zu den oben genannten Techniken sind. Grundsätzlich ist die mittlere Imputation nicht bedingt und kann daher die unterstellten Verteilungen auf den beobachteten Mittelwert ausrichten. Es wird auch die Varianz verringern, neben anderen unerwünschten Auswirkungen auf die unterstellte Verteilung. Darüber hinaus funktioniert das listenweise Löschen in der Tat nur, wenn die Daten wie durch einen Münzwurf völlig zufällig fehlen. Außerdem erhöht sich der Stichprobenfehler, da die Stichprobengröße verringert wird.
Die oben genannten Autoren empfehlen in der Regel, mit der Variablen mit den am wenigsten fehlenden Werten zu beginnen. Außerdem wird die Technik normalerweise auf Bayes'sche Weise angewendet (dh als Erweiterung Ihres Vorschlags). Variablen werden im Imputationsverfahren häufiger besucht, nicht nur einmal. Insbesondere wird jede Variable durch Ziehen aus ihrer bedingten posterioren Vorhersageverteilung vervollständigt, beginnend mit der Variablen mit den am wenigsten fehlenden Werten. Sobald alle Variablen in einem Datensatz vervollständigt wurden, beginnt der Algorithmus erneut bei der ersten Variablen und wiederholt sich dann bis zur Konvergenz. Die Autoren haben gezeigt, dass es sich bei diesem Algorithmus um Gibbs handelt, weshalb er normalerweise zur korrekten multivariaten Verteilung der Variablen konvergiert.
In der Regel, weil einige nicht testbare Annahmen vorliegen, insbesondere das Fehlen zufälliger Daten (dh ob Daten beobachtet werden oder nicht, hängt nur von den beobachteten Daten und nicht von den nicht beobachteten Werten ab). Die Prozeduren können auch teilweise inkompatibel sein, weshalb sie als PIGS (teilweise inkompatibler Gibbs-Sampler) bezeichnet wurden.
In der Praxis ist die Bayes'sche multiple Imputation immer noch ein guter Weg, um mit multivariaten, nicht monotonen Problemen mit fehlenden Daten umzugehen. Nichtparametrische Erweiterungen, wie z. B. Predictive Mean Matching, tragen zur Lockerung der Annahmen zur Regressionsmodellierung bei.
TE Raghunathan, J. Lepkowski, J. van Hoewyk & P. Solenberger (2001). Eine multivariate Technik zur Multiplikation der Eingabe fehlender Werte mithilfe einer Folge von Regressionsmodellen. Survey Methodology, 27 (1), 85–95.
Schafer, JL & Graham, JW (2002). Fehlende Daten: Unser Blick auf den Stand der Technik. Psychological Methods, 7 (2), 147–177. https://doi.org/10.1037/1082-989X.7.2.147
van Buuren, S. (2012). Flexible Anrechnung fehlender Daten. Boca Raton: CRC Press.