Ich führe eine binäre Logit-Regression durch, bei der ich weiß, dass die abhängige Variable in einem kleinen Prozentsatz der Fälle falsch codiert ist. Ich versuche also, in diesem Modell zu schätzen :
Aber anstelle des Vektors ich , was einige zufällige Fehler enthält (dh , aber oder umgekehrt für einige ).˜ Y y i = 1 ~ y i = 0 i
Gibt es eine (einigermaßen) einfache Korrektur für dieses Problem?
Ich weiß, dass logit in Fall-Kontroll-Studien einige nette Eigenschaften hat. Es ist wahrscheinlich, dass hier etwas Ähnliches gilt, aber ich konnte keine gute Lösung finden.
Einige andere Einschränkungen: Dies ist eine Text-Mining-Anwendung, daher sind die Abmessungen von groß (in Tausenden oder Zehntausenden). Dies kann einige rechenintensive Verfahren ausschließen.
Außerdem ist es mir nicht wichtig, , nur richtig zu schätzen .β