y=Xβ+ε
Xβεyf(y)={0, if y⩽θ1, if y>θ
θist eine Schwelle. Wie groß ist die Wahrscheinlichkeit, dass diese Funktion bei einem bestimmten Wert von zurückgibt ? Wenn wir annehmen, dass mit dem Mittelwert und der Varianz normalverteilt ist , können wir diese Wahrscheinlichkeit wie folgt berechnen:
1Xε0σ2
p(f(y)=1|X)=p(y>θ|X)=∫∞θN(y;Xβ,σ2)dy
Mit anderen Worten, dies berechnet den Bereich unter der Normalverteilung, der rechts vom Schwellenwert liegt. Beachten Sie, dass diese Wahrscheinlichkeit im Wesentlichen das ist, was ein logistisches Regressionsmodell zu beschreiben versucht. Wenn Sie diese Wahrscheinlichkeit als Funktion von , erhalten Sie tatsächlich eine Form, die der logistischen Funktion ziemlich nahe kommt (tatsächlich wird die logistische Funktion häufig als bequeme Annäherung an die kumulative Normalverteilung verwendet).X
Für Werte von nahe dem Schwellenwert liegt die Wahrscheinlichkeit, dass über dem Schwellenwert liegt, nahe , da das Rauschen das Ergebnis in beide Richtungen beeinflussen kann. Wenn Sie erhöhen , entfernt sich weiter von und wird wahrscheinlicher. Entscheidend ist, wie schnell mit zunimmt, hängt von zwei Dingen ab: der Steigung und der Rauschvarianz . Genauer gesagt hängt es vom Verhältnisy 0,5 & egr ; X X & bgr ; & thgr; f ( y ) = 1 p ( f ( y ) = 1 | X ) X & bgr ; & sgr; 2 & bgr;Xβy0.5εXXβθf(y)=1p(f(y)=1|X)Xβσ2βσ. Dieses (Signal-Rausch-) Verhältnis bestimmt den (erwarteten) Koeffizienten, den Sie aus einer logistischen Regression erhalten. Mit anderen Worten, Sie können sich die Koeffizienten in einer logistischen Regression als Kontrolle darüber vorstellen, wie stark sich jede unabhängige Variable relativ zum Rauschen in den Daten ändern muss, um die Wahrscheinlichkeit eines bestimmten Ergebnisses um einen bestimmten Betrag zu erhöhen.
Kommen wir nun zu Ihrer Frage: Sie fragen, ob es möglich ist, alle Zufälligkeiten zu beseitigen, dh kein Rauschen zu haben. Dies würde bedeuten, dass gleich ist und daher undefiniert (oder "unendlich") wäre. Dies erklärt, was Sie festgestellt haben, dass Sie die Koeffizienten nicht schätzen können, wenn kein Rauschen vorliegt. In der Tat können Sie sich die perfekte Trennung, die Sie ohne Rauschen erzielen, als einen unendlichen Koeffizienten für Ihre unabhängige Variable vorstellen, da Sie (für nahe der Schwelle ) einen infinitesimalen Betrag ändern müssen, um alles zu erreichen der Weg von nach .0 βσ0 XβθXp(y>θ|X)=0p(y>θ|X)=1βσXβθXp(y>θ|X)=0p(y>θ|X)=1
Bearbeiten: Eine Möglichkeit besteht darin, anstelle der Auswahl von Stichproben aus einer Binomialverteilung zur Simulation Ihrer Daten diese Stichproben durch ihre Erwartung zu ersetzen, dh durch die Wahrscheinlichkeit, die durch die simulierte Logistikfunktion vorhergesagt wird. Auf diese Weise entfernen Sie die Zufälligkeit, die sich aus der Simulation einer begrenzten Stichprobe ergibt (dh der Stichprobenvariabilität), und daher sollten Ihre Koeffizientenschätzungen der Grundwahrheit entsprechen (da es eine logistische Funktion gibt, die genau zu diesen Werten passt).