Bei der standardmäßigen multiplen linearen Regression ergibt sich die Fähigkeit, Schätzungen der gewöhnlichen kleinsten Quadrate (OLS) in zwei Schritten anzupassen, aus dem Frisch-Waugh-Lovell-Theorem . Dieser Satz zeigt, dass die Schätzung eines Koeffizienten für einen bestimmten Prädiktor in einem multiplen linearen Modell gleich der Schätzung ist, die durch Regression der Antwortreste (Residuen aus einer Regression der Antwortvariablen gegen die anderen erklärenden Variablen) gegen die Prädiktorreste (Residuen) erhalten wird aus einer Regression der Prädiktorvariablen gegen die anderen erklärenden Variablen). Offensichtlich suchen Sie nach einer Analogie zu diesem Theorem, die in einem logistischen Regressionsmodell verwendet werden kann.
Bei dieser Frage ist es hilfreich, an die latent-variable Charakterisierung der logistischen Regression zu erinnern :
Yi=I(Y∗i>0)Y∗i=β0+βXxi+βZzi+εiεi∼IID Logistic(0,1).
Bei dieser Charakterisierung des Modells ist die latente Antwortvariable nicht beobachtbar, und stattdessen beobachten wir den Indikator der uns sagt, ob die latente Antwort positiv ist oder nicht. Diese Form des Modells ähnelt der multiplen linearen Regression, außer dass wir eine geringfügig andere Fehlerverteilung verwenden (die logistische Verteilung anstelle der Normalverteilung), und was noch wichtiger ist, wir beobachten nur einen Indikator, der anzeigt, ob die latente Antwort positiv ist oder nicht .Y∗iYi
Dies führt zu einem Problem bei jedem Versuch, eine zweistufige Anpassung des Modells zu erstellen. Dieses Frisch-Waugh-Lovell-Theorem hängt von der Fähigkeit ab, Zwischenreste für die Antwort und den Prädiktor von Interesse zu erhalten, die gegen die anderen erklärenden Variablen genommen werden. Im vorliegenden Fall können wir nur Residuen aus einer "kategorisierten" Antwortvariablen erhalten. Um einen zweistufigen Anpassungsprozess für die logistische Regression zu erstellen, müssen Sie Antwortreste aus dieser kategorisierten Antwortvariablen verwenden, ohne auf die zugrunde liegende latente Antwort zugreifen zu müssen. Dies scheint mir eine große Hürde zu sein, und obwohl dies keine Unmöglichkeit darstellt, ist es unwahrscheinlich, dass das Modell in zwei Schritten angepasst werden kann.
Im Folgenden werde ich Ihnen einen Bericht darüber geben, was erforderlich wäre, um einen zweistufigen Prozess für eine logistische Regression zu finden. Ich bin mir nicht sicher, ob es eine Lösung für dieses Problem gibt oder ob es einen Beweis für die Unmöglichkeit gibt, aber das Material hier sollte Ihnen helfen, zu verstehen, was erforderlich ist.
Wie würde eine zweistufige logistische Regressionsanpassung aussehen? Angenommen, wir möchten eine zweistufige Anpassung für ein logistisches Regressionsmodell erstellen, bei dem die Parameter bei jedem Schritt über die Maximum-Likelihood-Schätzung geschätzt werden. Wir möchten, dass der Prozess einen Zwischenschritt umfasst, der zu den folgenden zwei Modellen passt:
Yi=I(Y∗∗i>0)Y∗∗i=α0+αXxi+τi Zi=γ0+γXxi+δiτi∼IID Logistic(0,1),δi∼IID g.
Wir schätzen die Koeffizienten dieser Modelle (über MLEs) und dies ergibt angepasste Zwischenwerte . Dann passen wir im zweiten Schritt das Modell an:α^0,α^X,γ^0,γ^X
Yi=logistic(α^0+α^1xi)+βZ(zi−γ^0−γ^Xxi)+ϵiϵi∼IID f.
Wie angegeben, hat die Prozedur viele feste Elemente, aber die Dichtefunktionen und in diesen Schritten bleiben nicht spezifiziert (obwohl es sich um Verteilungen mit dem Mittelwert Null handeln sollte, die nicht von den Daten abhängen). Um eine zweistufige Anpassungsmethode unter diesen Bedingungen zu erhalten, müssen wir und auswählen, um sicherzustellen, dass der MLE für in diesem zweistufigen Modellanpassungsalgorithmus der gleiche ist wie der MLE, der aus dem einstufigen logistischen Regressionsmodell erhalten wird über.gfgfβZ
Um zu sehen, ob dies möglich ist, schreiben wir zuerst alle geschätzten Parameter aus dem ersten Schritt:
ℓy|x(α^0,α^X)ℓz|x(γ^0,γ^X)=maxα0,αX∑i=1nlnBern(yi|logistic(α0+αXxi)),=maxγ0,γX∑i=1nlng(zi−γ0−γXxi).
Sei so dass die Log-Likelihood-Funktion für den zweiten Schritt lautet:ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
ℓy|z|x(βZ)=∑i=1nlnf(yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)).
Wir fordern, dass der Maximierungswert dieser Funktion der MLE des multiplen logistischen Regressionsmodells ist. Mit anderen Worten, wir benötigen:
arg max βXℓy|z|x(βZ)=arg max βXmaxβ0,βZ∑i=1nlnBern(yi|logistic(β0+βXxi+βZzi)).
Ich überlasse es anderen, festzustellen, ob es eine Lösung für dieses Problem oder einen Beweis dafür gibt, dass es keine Lösung gibt. Ich vermute, dass die "Kategorisierung" der latenten Antwortvariablen in einer logistischen Regression es unmöglich macht, einen zweistufigen Prozess zu finden.