Wie können fehlende Daten bei der Verwendung von Splines oder Bruchpolynomen behandelt werden?


12

Ich lese Multivariable Model Building: Ein pragmatischer Ansatz zur Regressionsanalyse basierend auf fraktionellen Polynomen zur Modellierung kontinuierlicher Variablen von Patrick Royston und Willie Sauerbrei. Bisher bin ich beeindruckt und es ist ein interessanter Ansatz, den ich vorher nicht in Betracht gezogen hatte.

Die Autoren gehen jedoch nicht auf fehlende Daten ein. In der Tat auf p. 17 Sie sagen, dass fehlende Daten "viele zusätzliche Probleme mit sich bringen. Hier nicht berücksichtigt."

Funktioniert multiple Imputation mit fraktionalen Polynomen?

FP ist in mancher Hinsicht (aber nicht in jeder Hinsicht) eine Alternative zu Splines. Ist es einfacher, mit fehlenden Daten für die Spline-Regression umzugehen?


Haben Sie es mit fehlenden x oder fehlenden y oder beidem zu tun?
Glen_b -Reinstate Monica

2
+1 (!) Ich bin wirklich froh, dass jemand anderes eine ähnliche Frage stellt. Kürzlich habe ich folgende Frage gestellt: stats.stackexchange.com/questions/295977/… zur Verwendung eingeschränkter kubischer Splines in Rs Mäusen. Ich würde mich speziell für Splines entscheiden, da sie keine Angabe eines gebrochenen Polynoms erfordern, während Splines für viele funktionale Formen flexibel genug sind. Ich weiß jedoch nicht, ob dies Ihre Frage beantwortet (daher dieser Kommentar).
IWS

2
Dies ist eine interessante Frage, die (als eine Dimension einer möglichen Antwort) die Möglichkeit eröffnet, Kritik an diesen verschiedenen Glättungs- / Interpolationstechniken zu üben, indem ihre Fähigkeit, fehlende Daten aufzunehmen, gegenübergestellt wird. (Bis zu einem gewissen Grad ist die Fragilität gegenüber dem Fehlen eine "Verlegenheit" gegenüber einer modernen Methode.) Ich stelle nur am Rande fest, dass eine Bayes'sche Implementierung Ihnen Ihre Zurechnung "umsonst" bringen würde.
David C. Norris

2
@ DavidC.Norris Dein Kommentar fasziniert mich! Könnten Sie näher erläutern, wie Bayes'sche Methoden fehlende "umsonst" berücksichtigen (was Ihrer Meinung nach von den Analysemethoden angemessen, "automatisch" und als Standard behandelt wird)? (Oder zeigen Sie mir auf eine Referenz)
IWS

2
Die No-Free-Lunch Teil von „frei“ ist , dass Sie ein Bayes - Modell aufschreiben muss, die explizit über das Denken impliziert Datenerzeugungsprozess ( DGP ). Sobald Sie dies getan haben, behandeln Sie die fehlenden Werte als [störende] Parameter. (Im Bayesianischen ist "alles ein Parameter". Siehe auch latente Variable .) Ihr MCMC nutzt dann im Wesentlichen die von Ihnen angegebene DGP, um die fehlenden Werte "kostenlos" zu "unterstellen", während er mithakt.
David C. Norris

Antworten:


1

f(x)f(x)=x+x.5fm()M1MmMfm(x)

Unter der Annahme, dass die von Ihnen verwendete Software eine Standardfehlerschätzung für jeden eindeutigen Wert von x liefern kann, können Sie die Rubin-Formel (Multiple Imputation for Nonresponse in Umfragen; 1987) zur Berechnung der Standardfehler verwenden. Es gibt kleine und große Beispielformeln für die Freiheitsgrade mit multipler Imputation. Die große Beispielformel (auch in Rubin) übernimmt nur die gleichen Eingaben wie der Standardfehler, kann also auch verwendet werden. Der kleine Beispielfall verwendet die Freiheitsgrade des Modells als Eingabe. Es ist mir nicht klar, ob diese Formel hier angewendet werden kann.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.