Gibt es eine Annahme zur logistischen Regression?


18

Gibt es eine Annahme über die Antwortvariable der logistischen Regression?

Angenommen, wir haben Datenpunkte. Es scheint, dass die Antwort von einer Bernoulli-Distribution mit . Daher sollten wir Bernoulli-Verteilungen mit unterschiedlichen Parametern .Y i p i = logit1000Yi1000 ppi=logit(β0+β1xi)1000p

Sie sind also "unabhängig", aber nicht "identisch".

Habe ich recht?


PS. Ich habe die logistische Regression aus der Literatur zum "maschinellen Lernen" gelernt, in der wir die Zielfunktion optimieren und prüfen, ob sie zum Testen von Daten geeignet ist, ohne zu viel über Annahmen zu reden.

Meine Frage begann mit diesem Beitrag Linkfunktion im verallgemeinerten linearen Modell verstehen. Hier versuche ich, mehr über statistische Annahmen zu erfahren.


1
Eine "Annahme" kann ein Theorem haben. Die lineare Regression eine „Annahme“ von iid Fehlern hat (es ist nicht s , die „angenommen“ werden iid in der linearen Regression werden! Es ist die Fehler) in dem Sinne , dass der Gauss-Markov Theorem diese Annahme hat. Gibt es einen Satz, den man für logistische Regression hält? Wenn nicht, dann gibt es keine "Annahmen". y
Amöbe sagt Reinstate Monica

7
@Amoeba, hxd merkt richtig, dass die Distributionen nicht identisch sind: "iid" gilt nicht. Wenn man die logistische Regression nur für ihre Anpassung verwendet, sind (wie Sie schreiben) möglicherweise nur wenige Annahmen erforderlich. aber sobald man macht den geschätzten Kovarianzmatrix der Koeffizienten verwenden , oder Wunsches zu konstruieren Prädiktionsintervalle (oder, was das betrifft, Quer Validate vorhergesagte Werte), so daß erfordert probabilistische Annahmen. Das Übliche ist, dass die Antworten unabhängig sind.
Whuber

4
@amoeba Wenn Sie eine Inferenz durchführen möchten (Hypothesentests, Konfidenzintervalle usw.), anstatt einfach Schätzungen von Parametern zu berechnen, werden Sie eine Reihe von Annahmen treffen (einige kritischer als andere), um die relevante Nullverteilung der ableiten zu können Teststatistik oder die notwendigen Berechnungen für ein Intervall mit der gewünschten Abdeckung. Selbst Verfahren mit relativ niedrigen Annahmen haben noch Annahmen, und wenn wir uns um unsere Schlussfolgerungen kümmern, werden wir uns darum kümmern, ob sie wahrscheinlich etwas in der Nähe ihrer nominalen Eigenschaften haben.
Glen_b

1
@amoeba, ich mag einen Satz, der die asymptotische Normalität des MLE zeigt. Mir gefällt auch der Likelihood-Ratio-Test.
Gammer

2
Ihre Randverteilungen sind nicht identisch, es sei denn, sie haben alle den gleichen Prädiktorwert. In diesem Fall liegen nur IID-Bernoulli-Versuche vor. Ihre bedingten Verteilungen (unter Angabe des Prädiktors) sind alle gleich, aber ich glaube nicht, dass Sie normalerweise sagen würden, dass die in diesem Fall IID sind. Yi
Gammer

Antworten:


11

Von Ihrer vorherigen Frage haben Sie gelernt , dass GLM in Bezug auf die Wahrscheinlichkeitsverteilung beschrieben wird, linearen Prädiktor und die Verknüpfungsfunktion und wird wie folgt beschriebenηg

η=XβE(Y|X)=μ=g1(η)

Dabei ist eine Logit-Link-Funktion, und es wird angenommen, dass einer Bernoulli-Verteilung folgtgY

YiB(μi)

Jedes folgt der Bernoulli-Verteilung mit seinem eigenen Mittelwert , der von abhängig ist . Wir gehen nicht davon aus, dass jedes aus derselben Verteilung mit demselben Mittelwert stammt (dies wäre das Intercept-Only-Modell ), sondern dass alle Mittelwerte unterschiedlich sind. Wir gehen davon aus, dass ‚s sind unabhängig , dh wir haben keine Sorgen zu machen über Dinge wie Autokorrelation zwischen aufeinanderfolgenden Werte usw.Yi μiXYiYi=g1(μ)YiYi

Die iid- Annahme bezieht sich auf Fehler in der linearen Regression (dh Gaußscher GLM), in der sich das Modell befindet

yi=β0+β1xi+εi=μi+εi

wo , so haben wir iid Rauschen um . Aus diesem Grund sind Sie an einer Residuendiagnose interessiert und achten auf den Vergleich von Residuen und angepasstem Diagramm . Im Falle einer GLM-ähnlichen logistischen Regression ist dies nicht so einfach, da es keinen additiven Rauschbegriff wie beim Gaußschen Modell gibt (siehe hier , hier und hier ). Wir möchten weiterhin, dass die Residuen "zufällig" bei Null liegen, und wir möchten keine Trends darin sehen, da dies darauf hindeutet, dass einige Effekte im Modell nicht berücksichtigt werden, dies jedoch nicht vorausgesetzt wird normal und / oderεiN(0,σ2)μiiid . Siehe auch das Thema Über die Bedeutung der iid-Annahme im statistischen Lernprozess .

Beachten Sie als Randnotiz, dass wir sogar die Annahme fallen lassen können, dass jedes von derselben Art von Verteilung stammt. Es gibt Modelle (ohne GLM), die davon ausgehen, dass verschiedene unterschiedliche Verteilungen mit unterschiedlichen Parametern haben können, dh dass Ihre Daten aus einer Mischung verschiedener Verteilungen stammen . In diesem Fall würden wir auch annehmen, dass die Werte unabhängig sind , da abhängige Werte, die von unterschiedlichen Verteilungen mit unterschiedlichen Parametern stammen (dh typische Daten der realen Welt), in den meisten Fällen zu kompliziert (oft unmöglich) zu modellieren sind.YiYiYi


6

Wie bereits erwähnt, berücksichtigen wir häufig den Fall von ID- Fehlern bei der linearen Regression, haben jedoch in den meisten verallgemeinerten linearen Modellen (einschließlich der logistischen Regression) keine direkten Entsprechungen. In der logistischen Regression verwenden wir normalerweise die Annahme der Unabhängigkeit von Ergebnissen, dass alle eine sehr strenge Beziehung haben (dh lineare Auswirkungen auf die logarithmischen Wahrscheinlichkeiten). Dies führt jedoch zu Zufallsvariablen, die weder identisch sind, noch in einen konstanten Term plus einen ID-Fehler zerlegbar sind, wie dies bei der linearen Regression der Fall ist.

Wenn Sie wirklich zeigen möchten, dass die Antworten in irgendeiner Beziehung zueinander stehen, folgen Sie mir für den nächsten Absatz. Wisse nur, dass diese Idee etwas abseits der ausgetretenen Pfade liegt. Möglicherweise erhalten Sie nicht die volle Anerkennung für diese Antwort in einem Finale, wenn Ihr Professor nicht geduldig genug ist.

Sie kennen vielleicht die inverse-cdf-Methode zum Generieren von Zufallsvariablen. Wenn nicht, hier ist eine Auffrischung: Wenn die kumulative Verteilungsfunktion , dann kann ich aus zufällige Ziehungen erzeugen, indem ich zuerst die zufälligen Ziehungen dann berechne . In welcher Beziehung steht dies zur logistischen Regression? Nun, wir könnten denken, dass der Erzeugungsprozess für unsere Antworten zwei Teile hat; einen festen Teil, der die Kovariaten mit den Erfolgswahrscheinlichkeiten in Beziehung setzt, und einen zufälligen Teil, der den Wert der Zufallsvariablen bestimmt, der vom festen Teil abhängig ist. Der feste Teil wird durch die Verknüpfungsfunktion der logistischen Regression definiert, dhXFXXquniform(0,1)X=FX1(q)p=expit(βo+β1x). Definieren für den zufälligen Teil als cdf für eine Bernoulli-Verteilung mit der Wahrscheinlichkeit . Dann können wir uns , dass die Antwortvariable durch die folgenden drei Schritte generiert wird:FY(y|p)pYi

1.)pi=expit(βo+β1xi)

2.)qiuniform(0,1)

3.)Yi=F1(qi|pi)

Dann ist die Standardannahme in der logistischen Regression, dass ist.qi


1
Sie machen einige gute Punkte, aber ich bin mir nicht sicher, ob es nicht noch , von Uniform zu sprechen . Ich würde sagen, dass es besser ist, sich an die Standardbeschreibung , die von sich aus , dass Bernoulli-zufällig mit dem Mittelwert . Die Definition in Form von macht es kompliziert, weil das "Rauschen" gleichmäßig ist, aber dann nicht linear transformiert wird, so dass es hässlich wird. y iB ( p i ) Y i p i q iqiYiB(pi)Yipiqi
Tim

@ Tim: Ja, der zweite Teil der Antwort ist eher eine interessante Randnotiz als eine prägnante Antwort. Aber es kann eine nützliche Art sein, es zu betrachten; Schließlich simuliert Ihr Computer auf diese Weise die Daten dieser Modelle!
Cliff AB
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.