Was Sie tun möchten, existiert nicht, weil es mangels eines besseren Wortes mathematisch fehlerhaft ist.
Aber zuerst möchte ich betonen, warum ich die Prämissen Ihrer Frage für richtig halte. Ich werde dann versuchen zu erklären, warum ich denke, dass die Schlussfolgerungen, die Sie daraus ziehen, auf einem Missverständnis des logistischen Modells beruhen, und schließlich werde ich einen alternativen Ansatz vorschlagen.
Ich werde Ihre Beobachtungen (die kühneren Buchstaben bezeichnen Vektoren) bezeichnen, die im dimensionalen Raum liegen (der erste Eintrag von ist 1) mit , und ist eine monotone Funktion von , etwa wie die logistische Kurve Ideen zu fixieren. Aus Gründen der Zweckmäßigkeit gehe ich nur davon aus, dass im Vergleich zu ausreichend groß ist . np x{(xxi,yi)}ni=1np p<n y i ∈[0,1]f( xxxip<nyi∈[0,1]xf(xxi)=f(xx′iββ) n pxx′iββnp
Sie haben Recht, wenn Sie TVD als Kriterium zur Bewertung des angepassten Modells verwenden möchten , ist es vernünftig zu erwarten, dass Ihre Anpassung dasselbe Kriterium unter allen möglichen Kandidaten für Ihre Daten optimiert. Daher
ββ∗=argminββ∈Rp||yy−f(xx′iββ)||1
Das Problem ist der Fehlerterm :
und wenn wir erzwingen (wir wollen einfach, dass unser Modell asymptotisch unvoreingenommen ist ), dann muss sein heteroskedastischen . Dies liegt daran nur zwei Werte annehmen kann, 0 und 1. Daher gegeben
, können auch nur zwei Werte annehmen: , wenn , tritt mit der Wahrscheinlichkeit und wennϵi=yi−f(xx′iββ)E(ϵϵ)=0ϵi yixxiϵi1−f(xx′iββ)yi=1f(xx′iββ)−f(xx′iββ)yi=1, die mit der Wahrscheinlichkeit .1−f(xx′iββ)
Diese Überlegungen zusammen implizieren Folgendes:
var(ϵϵ)=E(ϵϵ2)=(1−f(xx′ββ))2f(xx′ββ)+(−f(xx′ββ))2(1−f(xx′ββ))=(1−f(xx′ββ))f(xx′ββ)=E(yy|xx)E(1−yy|xx)
daher ist nicht konstant, sondern konkav und wird maximiert, wenn ist, dass .var(ϵϵ)xxE(y|xx)≈.5
Diese inhärente Heteroskedastizität der Residuen hat Konsequenzen . Dies impliziert unter anderem, dass Sie bei der Minimierung der Verlustfunktion einen Teil Ihrer Stichprobe asymptotisch übergewichten. Das heißt, das angepasste passt überhaupt nicht zu den Daten, sondern nur zu dem Teil davon, der um Orte gruppiert ist, an denen ist, dass . Dies sind die am wenigsten informativen Datenpunkte in Ihrer Stichprobe : Sie entsprechen den Beobachtungen, für die die Rauschkomponente am größten ist. Daher wird Ihre Anpassung in Richtung , z. B. irrelevant gemacht.l1ββ∗xxE(yy|xx)≈.5ββ∗=ββ:f(xx′ββ)≈.5
Eine Lösung, wie aus der obigen Darstellung hervorgeht, besteht darin, das Erfordernis der Unparteilichkeit fallen zu lassen. Eine beliebte Methode, den Schätzer zu beeinflussen (mit einigen Bayes'schen Interpretationen), ist das Einfügen eines Schrumpfungsbegriffs. Wenn wir die Antwort neu skalieren:
y+i=2(yi−.5),1≤i≤n
und ersetzen Sie aus durch eine andere monotone Funktion --Es wird bequem sein , für die Fortsetzung der erste Komponente des Vektors der Parameter zu bezeichnen und die restlichen Einsen - und umfasst einen Schrumpfungs Term (zum Beispiel eine der Form ) wird das resultierende Optimierungsproblem:f(xx′ββ)g(xx,[c,γγ])=xx′[c,γγ]cp−1γγ||γγ||2
[c∗,γγ∗]=argmin[[c,γγ]∈Rp∑i=1nmax(0,1−y+ixx′i[[c,γγ])+12||γγ||2
Beachten Sie, dass bei diesem neuen (ebenfalls konvexen) Optimierungsproblem die Strafe für korrekt klassifizierte Beobachtungen 0 ist und linear mit für eine klassifizierte Beobachtung wächst - wie in Verlust. Die Lösung für dieses zweite Optimierungsproblem sind die berühmten linearen svm-Koeffizienten (mit perfekter Trennung). Im Gegensatz zu ist es sinnvoll, diese aus den Daten mit einer TVD-Strafe zu lernen ('Typ' wegen des Bias-Terms). . Folglich ist diese Lösung weit verbreitet. Siehe zum Beispiel das R-Paket LiblineaR .xx′[[c,γ]l1[c∗,γγ∗]ββ∗[c∗,γγ∗]