80% der fehlenden Daten in einer einzelnen Variablen

Es gibt eine Variable in meinen Daten, bei der 80% der Daten fehlen. Die Daten fehlen wegen Nichtvorhandenseins (dh wie viel Bankdarlehen das Unternehmen schuldet). Ich bin auf einen Artikel gestoßen, in dem es heißt, dass die Dummy-Variable-Einstellmethode die Lösung für dieses Problem ist. Bedeutet das, dass ich diese stetige Variable in eine kategoriale Variable umwandeln muss?

Ist das die einzige Lösung? Ich möchte diese Variable nicht löschen, da ich sie theoretisch für wichtig für meine Forschungsfrage halte.

Vielen Dank.

missing-data

— lcl23
quelle

Antworten:

Fehlen die Daten im Sinne einer Unbekanntheit oder gibt es nur kein Darlehen (der Darlehensbetrag ist also Null)? Es klingt wie letzteres. In diesem Fall benötigen Sie einen zusätzlichen Binärdummy, um anzuzeigen, ob ein Darlehen vorliegt. Es ist keine Transformation des Darlehensbetrags erforderlich (abgesehen von einer kontinuierlichen Neuausdruckung, wie z. B. einem Stammprotokoll oder einem gestarteten Protokoll, die möglicherweise aufgrund anderer Überlegungen angezeigt wird).

Dies funktioniert gut in einer Regression. Ein einfaches Beispiel ist ein konzeptionelles Modell des Formulars

dependent variable (Y) = loan amount (X) + constant.

$\text{dependent variable (Y) = loan amount (X) + constant.}$

Mit dem Zusatz eines Darlehensindikators ( ) ergibt sich das Regressionsmodell $I$

Y = β_{I} I + β_{X} X + β_{0} + ϵ

$Y = \beta_I I + \beta_X X + \beta_0 + \epsilon$

wobei zufällige Fehler mit Nullerwartungen darstellt. Die Koeffizienten werden interpretiert als: $\epsilon$

ist die Erwartung von für Situationen ohne Darlehen, da diese durch und . $\beta_0$ $Y$ $X = 0$ $I = 0$

ist die marginale Änderung von in Bezug auf die Höhe des Darlehens ( ). $\beta_X$ $Y$ $X$

ist der Achsenabschnitt für die Fälle mit Darlehen. $\beta_I + \beta_0$

— whuber
quelle

Sie werden nicht als vermisst behandelt, sondern schätzen den Wert für kein Darlehen. Vielleicht haben Sie kein Darlehen 'NA' aufgenommen. In diesem Fall müssen Sie diese auf 0 umcodieren.

— John

@ John Danke, genau das empfehle ich. Es geht darum, die Darlehenswerte (

) in einer angemessenen Weise auszudrücken (z. B. log (Betrag + 1)) und

und

für jeden Fall ohne Darlehen festzulegen. Dies ist eine Standardtechnik für die Regression, einschließlich der logistischen Regression.

X

$X$

X = 0

$X=0$

I = 1

$I=1$

— whuber

@ lcl23 Wenn ich die Situation richtig verstanden habe, macht die Anrechnung keinen Sinn: Ihre "fehlenden" Daten fehlen nicht. sie weisen darauf hin, dass kein Darlehen aufgenommen wurde.

— Whuber

@ Bakaburg Ich denke, Sie haben es vielleicht verkehrt herum, aber es spielt keine Rolle - die beiden Modelle (mit

gegen

) werden gleichwertig sein. Die prognostizierten Werte in den Modellen mit und ohne einen solchen Indikator unterscheiden sich, sodass ich nicht verstehe, was Sie zu fragen versuchen. Beachten Sie, dass "nicht erkannt" sich grundlegend von "nicht vorhanden" unterscheidet! Wenn Ihre Erkennungsgrenzen klein genug sind, sollte es nicht erforderlich sein, einen Dummy für sie einzuführen. und wenn es notwendig ist, kann das Einführen eines Dummys etwas zu grob sein. In diesem Fall sollten Sie stattdessen Methoden zur Analyse zensierter oder intervallwertiger Daten in Betracht ziehen.

I (X = 1)

$I(X=1)$

I (X = 0)

$I(X=0)$

Die Antwort ist hier richtig. Wenn der Dummy

, wird der Wert

zur Vorhersage hinzugefügt. Wenn der Dummy

ist, fällt dieser Wert ab. Das ist alles dazu.

1

$1$

β_{I}

$\beta_I$

0

$0$

— whuber

Ich denke, Sie haben den Vorschlag des Artikels falsch verstanden: hauptsächlich, weil der Vorschlag keinen Sinn ergibt. Sie hätten dann zwei Probleme: Wie man eine Variable umkodiert und ihre Werte fehlen immer noch. Vermutlich wurde vorgeschlagen, einen Indikator für das Fehlen von Informationen zu erstellen .

Ein etwas relevanter Ansatz für den Umgang mit fehlenden Daten, der dieser Beschreibung nur mangelhaft entspricht, besteht darin, einen Indikator für fehlende Daten anzupassen . Dies ist sicherlich ein einfacher und einfacher Ansatz, aber im Allgemeinen ist er voreingenommen. Die Voreingenommenheit kann in ihrer Schlechtigkeit unbegrenzt sein. Dies führt effektiv dazu, dass zwei Modelle angepasst und ihre Effekte miteinander gemittelt werden: Das erste Modell ist das vollständig bedingte Modell , das zweite ist ein vollständiges Faktormodell. Das vollständig bedingte Modell ist das vollständige Fallmodell, in dem jede Beobachtung mit fehlenden Werten gelöscht wird. Es passt also auf eine Teilmenge von 20% der Daten. Die zweite ist eine Anpassung der verbleibenden 80%, wobei der fehlende Wert überhaupt nicht berücksichtigt wird. Dieses Randmodell schätzt die gleichen Auswirkungen wie das vollständige Modell, wenn keine nicht gemessene Interaktion vorliegt, wenn die Verknüpfungsfunktion reduzierbar ist und wenn die Daten zufällig fehlen (MAR). Diese Effekte werden dann durch einen gewichteten Durchschnitt kombiniert. Selbst unter idealen Bedingungen, ohne ungemessene Wechselwirkungen und ohne vollständig zufällige Daten (MCAR) führt der Ansatz mit fehlenden Indikatoren zu verzerrten Effekten, da das Randmodell und das bedingte Modell unterschiedliche Effekte abschätzen. Sogar Vorhersagen sind in diesem Fall voreingenommen.

Eine viel bessere Alternative ist die Verwendung von Mehrfachzuschreibungen. Selbst wenn der meist fehlende Faktor bei einer sehr geringen Prävalenz gemessen wird, gelingt es MI relativ gut, differenzierte Erkenntnisse über mögliche Werte zu generieren. Die einzig notwendige Annahme ist hier MAR.

— AdamO
quelle

Was bedeutet "Verbindungsfunktion ist zusammenlegbar"?

— Matthew Drury

@MatthewDrury Im Grunde bedeutet "Kollapsibilität", dass die Anpassung von Variablen, die das Ergebnis vorhersagen, jedoch nicht die Haupteffekte, die Genauigkeit erhöhen, aber den geschätzten Effekt nicht ändern.

— AdamO

Cool, danke Adam. Hatte diese Terminologie noch nie gehört.

— Matthew Drury