Wie kann ich Messfehler in der abhängigen Variablen in einer Logit-Regression korrigieren?

8

Ich führe eine binäre Logit-Regression durch, bei der ich weiß, dass die abhängige Variable in einem kleinen Prozentsatz der Fälle falsch codiert ist. Ich versuche also, in diesem Modell zu schätzen : $\beta$

$prob(y_i) = 1/(1 + e^{-z_i})$

$z_i = \alpha + X_i\beta$

Aber anstelle des Vektors ich , was einige zufällige Fehler enthält (dh , aber oder umgekehrt für einige ). $Y$ $\tilde{Y}$ $y_i = 1$ $\tilde{y_i} = 0$ $i$

Gibt es eine (einigermaßen) einfache Korrektur für dieses Problem?

Ich weiß, dass logit in Fall-Kontroll-Studien einige nette Eigenschaften hat. Es ist wahrscheinlich, dass hier etwas Ähnliches gilt, aber ich konnte keine gute Lösung finden.

Einige andere Einschränkungen: Dies ist eine Text-Mining-Anwendung, daher sind die Abmessungen von groß (in Tausenden oder Zehntausenden). Dies kann einige rechenintensive Verfahren ausschließen. $X$

Außerdem ist es mir nicht wichtig, , nur richtig zu schätzen . $\alpha$ $\beta$

logistic measurement-error

— Abe
quelle

2

$\beta$

— GaBorgulya
quelle

1

Dem Abstract zufolge scheint sich dieses Papier mit einer "fehleranfälligen binären Kovariate" zu befassen, dh nur mit falsch klassifizierten unabhängigen Variablen.

— whuber

1

Tatsächlich befasst sich die Zusammenfassung mit beidem: "Für eine Fehlklassifizierung der Ergebnisse argumentieren wir, dass eine wahrscheinlichkeitsbasierte Analyse der sauberste und am meisten bevorzugte Ansatz ist. Im Fall einer kovariaten Fehlklassifizierung kombinieren wir [....]

— rolando2

2

Sie können entweder ein parametrisches Modell des Fehlers mithilfe von MLE schätzen oder einen semiparamterischen Ansatz verwenden, der auf dem MRC-Schätzer (Maximum Rank Correlation) basiert. Computergestützt ist MRC für große Proben unerschwinglich, daher scheint MLE der richtige Ansatz für mich zu sein.

Vielen Dank an GaBorgulya für eine gute, schnelle Anleitung, insbesondere zum Begriff "Fehlklassifizierungsfehler".

Hier einige gute Quellen zum Thema:

Das Grundmodell, genau wie im ursprünglichen Problem beschrieben

Ungated Version desselben

Ein komplizierteres, aber allgemeineres Modell

Ein schöner Überblick

— Abe
quelle