Intuition hinter der logistischen Regression

Vor kurzem habe ich angefangen, maschinelles Lernen zu studieren, aber ich habe die Intuition hinter der logistischen Regression nicht verstanden .

Das Folgende sind die Fakten zur logistischen Regression, die ich verstehe.

Als Grundlage für die Hypothese verwenden wir die Sigmoidfunktion . Ich verstehe, warum es eine richtige Wahl ist, aber warum es die einzige Wahl ist, die ich nicht verstehe. Die Hypothese stellt die Wahrscheinlichkeit dar, dass die entsprechende Ausgabe , daher sollte der Bereich unserer Funktion . Dies ist die einzige Eigenschaft der Sigmoidfunktion, die ich hier für nützlich und angemessen befunden habe, jedoch erfüllen viele Funktionen diese Eigenschaft. Außerdem hat die Sigmoidfunktion eine Ableitung in dieser Form , aber ich sehe den Nutzen dieser speziellen Form in der logistischen Regression nicht. $1$ $[0,1]$ $f(x)(1-f(x))$

Frage : Was ist das Besondere an der Sigmoid-Funktion und warum können wir mit domain keine andere Funktion verwenden ? $[0,1]$
Die Kostenfunktion besteht aus zwei Parametern , wenn wenn . In der gleichen Weise wie oben verstehe ich, warum es richtig ist, aber warum ist es die einzige Form? Zum Beispiel, warum konnteeine gute Wahl für die Kostenfunktion sein? ${\rm Cost}(h_{\theta}(x),y)=-\log(h_{\theta}(x))$ $y=1, {\rm Cost}(h_{\theta}(x),y)=-\log(1-h_{\theta}(x))$ $y=0$ $|h_{\theta(x)}-y|$

Frage : Was ist das Besondere an der obigen Form der Kostenfunktion? Warum können wir kein anderes Formular verwenden?

Ich würde mich freuen, wenn Sie uns Ihr Verständnis der logistischen Regression mitteilen könnten.

regression machine-learning logistic

— user16168
quelle

Die logit / logistic-Funktion ist nicht die einzige Funktion, die als Verknüpfungsfunktion für Regressionsmodelle verwendet werden kann, wenn die Antwort als Binomial verteilt wird. In Bezug auf diesen Punkt kann es hilfreich sein, meine Antwort hier zu lesen: Unterschied zwischen logit- und probit-Modellen .

— gung - Reinstate Monica

Meine Antwort hier: Ist die Logit-Funktion immer die beste für die Regressionsmodellierung von Binärdaten , kann dies auch hilfreich sein, um über verschiedene Möglichkeiten nachzudenken.

— gung - Reinstate Monica

@AdamO bietet unten einen hervorragenden Überblick. Wenn Sie detailliertere Informationen darüber wünschen, was es bedeutet, dass das Logit die 'kanonische Linkfunktion' ist, können Sie Momos Antwort hier lesen: Unterschied zwischen der Linkfunktion und der kanonischen Linkfunktion für glm .

— gung - Wiedereinsetzung von Monica

A gearbeitet dargestellten Beispiel von (1) , wo eine „Sigmoid“ wird nicht angezeigt bei verwendet stats.stackexchange.com/a/70922 . Diese Antwort enthält eine Erklärung zu (2). Ein weiteres Beispiel finden Sie unter stats.stackexchange.com/questions/63978/… . Eine sachlichere (aber weniger technische) Diskussion findet unter stats.stackexchange.com/a/69873 statt und konzentriert sich auf das Thema (2).

— Whuber

Antworten:

Das logistische Regressionsmodell ist die maximale Wahrscheinlichkeit, mit der der natürliche Parameter (das Log-Odds-Verhältnis) verwendet wird, um die relativen Änderungen des Risikos des Ergebnisses pro Einheitsdifferenz im Prädiktor gegenüberzustellen. Dies setzt natürlich ein Binomialwahrscheinlichkeitsmodell für das Ergebnis voraus. Dies bedeutet, dass die Konsistenz- und Robustheitseigenschaften der logistischen Regression sich direkt von der maximalen Wahrscheinlichkeit erstrecken: robust bis fehlend bei zufälligen Daten, Root-n-Konsistenz und Existenz und Eindeutigkeit von Lösungen zur Schätzung von Gleichungen. Dies setzt voraus, dass sich die Lösungen nicht an den Grenzen des Parameterraums befinden (wobei die logarithmischen Quotenverhältnisse betragen ). Da die logistische Regression die maximale Wahrscheinlichkeit darstellt, hängt die Verlustfunktion mit der Wahrscheinlichkeit zusammen, da es sich um äquivalente Optimierungsprobleme handelt. $\pm \infty$

Bei der Quasilikelihood oder der Schätzung von Gleichungen (semiparametrische Inferenz) bleiben die Existenz- und Eindeutigkeitseigenschaften erhalten, aber die Annahme, dass das mittlere Modell gilt, ist nicht relevant, und die Inferenz und die Standardfehler sind unabhängig von der Modellfehlspezifikation konsistent. In diesem Fall geht es also nicht darum, ob das Sigma die richtige Funktion ist, sondern darum, ob wir an einen Trend glauben können, der durch Parameter parametrisiert wird, die erweiterbar interpretiert werden können.

Das Sigma ist jedoch nicht die einzige solche binäre Modellierungsfunktion. Die am häufigsten kontrastierte Probit-Funktion hat ähnliche Eigenschaften. Log-Odds-Verhältnisse werden nicht geschätzt, aber funktional sehen sie sehr ähnlich aus und geben tendenziell sehr ähnliche Annäherungen an genau dasselbe . Auch in der mittleren Modellfunktion müssen keine Boundness-Eigenschaften verwendet werden. Die einfache Verwendung einer logarithmischen Kurve mit einer Binomialvarianzfunktion ergibt eine relative Risikorückbildung, eine Identitätsverknüpfung mit der Binomialvarianz ergibt additive Risikomodelle. All dies wird vom Benutzer bestimmt. Die Popularität der logistischen Regression ist leider der Grund, warum sie so häufig verwendet wird. Ich habe jedoch meine Gründe (die, die ich angegeben habe), warum ich denke, dass es für die Verwendung unter den meisten Umständen der binären Ergebnismodellierung gut gerechtfertigt ist.

In der Inferenzwelt kann die Odds Ratio für seltene Ergebnisse grob als "relatives Risiko" interpretiert werden, dh als "prozentuale relative Änderung des Risikos eines Ergebnisses im Vergleich von X + 1 zu X". Dies ist nicht immer der Fall und im Allgemeinen kann und sollte eine Odds Ratio nicht als solche interpretiert werden. Es ist jedoch ein wichtiger Punkt, dass die Parameter interpretiert werden können und leicht an andere Forscher weitergegeben werden können, was in den didaktischen Materialien der Maschinell-Lernenden leider fehlt.

Das logistische Regressionsmodell bietet auch die konzeptionellen Grundlagen für komplexere Ansätze wie hierarchische Modellierung sowie gemischte Ansätze für Modellierung und bedingte Wahrscheinlichkeit, die für eine exponentiell wachsende Anzahl von Störparametern konsistent und robust sind. GLMMs und bedingte logistische Regression sind sehr wichtige Konzepte in der hochdimensionalen Statistik.

— AdamO
quelle

Ich danke Ihnen sehr für Ihre Antwort! Es scheint, als hätte ich einen riesigen Hintergrundmangel.

— user16168

Ich denke, McCullough und Nelders Buch Generalized Linear Models wären eine großartige Hintergrundquelle für eine statistischere Perspektive.

— AdamO

Welches Lehrbuch raten Sie im Allgemeinen zum maschinellen Lernen mit sehr detaillierten beschreibenden Inhalten?

— user16168

Elemente des statistischen Lernens von Hastie, Tibshirani, Friedman.

— AdamO

@ user48956 Statistische Analyse mit fehlendem Dada, Little & Rubin 2. Aufl. Fehlende Daten werden nicht per se "dargestellt", sondern durch Auslassung "gehandhabt". Dies gilt nicht speziell für die logistische Regression: Es ist der naive Ansatz, den alle statistischen Modelle verwenden. Wenn Daten in einem rechteckigen Array formatiert werden, werden Zeilen mit fehlenden Werten weggelassen. Dies ist als vollständige Fallanalyse bekannt. GLMs und GLMMS sind robust gegenüber fehlenden Daten in dem Sinne, dass vollständige Fallanalysen normalerweise unvoreingenommen und nicht sehr ineffizient sind.

— AdamO

$Y$ $X$ $Y$ $Y$ $X$ $Y_i=X_i\beta+\epsilon_i$

$Y^*$ $Y$ $Y^*$

\begin{aligned} Y_{i}^{*} & = X_{i} β + ϵ_{i} \\ Y_{i} & = 0 if Y_{i}^{*} < 0 \\ Y_{i} & = 1 if Y_{i}^{*} > 0 \end{aligned}

$\begin{align} Y^*_i &= X_i \beta + \epsilon_i\\ &\\ Y_i &= 0 \;\textrm{if}\; Y_i^*<0\\ Y_i &= 1 \; \textrm{if} \; Y_i^*>0 \end{align}$

X

$X$

$Y^*$ $X$ $Y$ $Y^*$

$\beta$ $\epsilon$ $F$ $P\{Y_i=1\}=F(X_i\beta)$

$P\{Y_i=1\}=1-F(-X_i\beta)$

$\epsilon$ $F$

$F$

— Rechnung
quelle

Was Sie beschrieben, ist genau die Motivation für das Probit-Modell, nicht die logistische Regression.

— AdamO

ϵ_{i}

$\epsilon_i$

Das scheint eine sehr heikle Annahme zu sein, die schwer zu testen wäre. Ich denke, dass eine logistische Regression motiviert sein kann, wenn solche Fehlerverteilungen nicht zutreffen.

— AdamO

@AdamO, auch wenn Sie eine logistische Regression motivieren, entspricht dies mathematisch immer noch einem linearen Schwellenregressionsmodell, bei dem die Fehler eine logistische Verteilung aufweisen. Ich bin damit einverstanden, dass diese Annahme schwer zu testen sein mag, aber sie ist vorhanden, unabhängig davon, wie Sie das Problem motivieren. Ich erinnere mich an eine frühere Antwort im Lebenslauf (ich kann sie derzeit nicht platzieren), die mit einer Simulationsstudie gezeigt hat, dass der Versuch, festzustellen, ob ein Logistik- oder Probit-Modell "besser passt", im Grunde genommen ein Münzwurf ist, unabhängig vom Modell, mit dem die Daten tatsächlich generiert werden . Ich vermute, dass Logistik wegen der bequemen Interpretation populärer ist.

— Makro

P (Y_{i} = 1) = \frac{e x p (X_{i} β)}{1 + e x p (X_{i} β)}

$P(Y_i=1)=\frac{exp(X_i\beta)}{1+exp(X_i\beta)}$