Ist logistische Regression tatsächlich ein Regressionsalgorithmus?

11

Die übliche Definition von Regression (soweit mir bekannt ist) ist die Vorhersage einer kontinuierlichen Ausgabevariablen aus einem bestimmten Satz von Eingabevariablen .

Die logistische Regression ist ein binärer Klassifizierungsalgorithmus, der eine kategoriale Ausgabe erzeugt.

Ist es wirklich ein Regressionsalgorithmus? Wenn ja warum?

algorithms logistic-regression

— Joews
quelle

23

Logistische Regression ist in erster Linie Regression. Durch Hinzufügen einer Entscheidungsregel wird es zu einem Klassifikator. Ich werde ein Beispiel geben, das rückwärts geht. Das heißt, anstatt Daten zu erfassen und ein Modell anzupassen, beginne ich mit dem Modell, um zu zeigen, dass dies wirklich ein Regressionsproblem ist.

Bei der logistischen Regression modellieren wir die Log-Quoten oder Logit, dass ein Ereignis eintritt, bei dem es sich um eine kontinuierliche Größe handelt. Wenn die Wahrscheinlichkeit, dass Ereignis eintritt, , sind die Chancen: $A$ $P(A)$

\frac{P (A)}{1 - P (A)}

$\frac{P(A)}{1 - P(A)}$

Die Log-Quoten sind also:

\log (\frac{P (A)}{1 - P (A)})

$\log \left( \frac{P(A)}{1 - P(A)}\right)$

Wie bei der linearen Regression modellieren wir dies mit einer linearen Kombination von Koeffizienten und Prädiktoren:

logit = b_{0} + b_{1} x_{1} + b_{2} x_{2} + \dots

$\operatorname{logit} = b_0 + b_1x_1 + b_2x_2 + \cdots$

Stellen Sie sich vor, wir erhalten ein Modell dafür, ob eine Person graue Haare hat. Unser Modell verwendet das Alter als einzigen Prädiktor. Hier ist unsere Veranstaltung A = eine Person hat graue Haare:

log Quoten für graues Haar = -10 + 0,25 * Alter

... Regression! Hier ist ein Python-Code und eine Handlung:

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

x = np.linspace(0, 100, 100)

def log_odds(x):
    return -10 + .25 * x

plt.plot(x, log_odds(x))
plt.xlabel("age")
plt.ylabel("log odds of gray hair")

Darstellung der Log-Quoten für unser Spielzeugbeispiel

$P(A)$

P (A) = \frac{1}{1 + \exp (- log odds))}

$P(A) = \frac1{1 + \exp(-\text{log odds}))}$

Hier ist der Code:

plt.plot(x, 1 / (1 + np.exp(-log_odds(x))))
plt.xlabel("age")
plt.ylabel("probability of gray hair")

Darstellung der Wahrscheinlichkeit grauer Haare für unser Spielzeugbeispiel

$P(A) > 0.5$

Die logistische Regression eignet sich auch in realistischeren Beispielen hervorragend als Klassifikator, aber bevor sie ein Klassifikator sein kann, muss sie eine Regressionstechnik sein!

— Ben
quelle

In der Praxis wird logistische Regression als Synonym für logistische Regression + binärer Klassifikator verwendet.

— Jinawee

10

Kurze Antwort

Ja, die logistische Regression ist ein Regressionsalgorithmus und sagt ein kontinuierliches Ergebnis voraus: die Wahrscheinlichkeit eines Ereignisses. Dass wir es als binären Klassifikator verwenden, liegt an der Interpretation des Ergebnisses.

Detail

Die logistische Regression ist eine Art verallgemeinerndes lineares Regressionsmodell.

In einem gewöhnlichen linearen Regressionsmodell wird ein kontinuierliches Ergebnis yals die Summe des Produkts von Prädiktoren und ihrer Wirkung modelliert:

y = b_0 + b_1 * x_1 + b_2 * x_2 + ... b_n * x_n + e

Wo eist der Fehler?

Verallgemeinerte lineare Modelle modellieren nicht ydirekt. Stattdessen verwenden sie Transformationen, um die Domäne yauf alle reellen Zahlen zu erweitern. Diese Transformation wird als Verknüpfungsfunktion bezeichnet. Für die logistische Regression ist die Verknüpfungsfunktion die Protokollierungsfunktion (normalerweise siehe Hinweis unten).

Die Logit-Funktion ist definiert als

ln(y/(1 + y))

Die Form der logistischen Regression lautet also:

ln(y/(1 + y)) = b_0 + b_1 * x_1 + b_2 * x_2 + ... b_n * x_n + e

Wo yist die Wahrscheinlichkeit eines Ereignisses?

Die Tatsache, dass wir es als binären Klassifikator verwenden, ist auf die Interpretation des Ergebnisses zurückzuführen.

Hinweis: Probit ist eine weitere Verknüpfungsfunktion, die für die logistische Regression verwendet wird. Logit wird jedoch am häufigsten verwendet.

— Christopher Louden
quelle

1

Während Sie diskutieren, sagt die Definition der Regression eine kontinuierliche Variable voraus. Die logistische Regression ist ein binärer Klassifikator. Logistische Regression ist die Anwendung einer Logit-Funktion auf die Ausgabe eines üblichen Regressionsansatzes. Die Logit-Funktion dreht (-inf, + inf) auf [0,1]. Ich denke, es ist nur aus historischen Gründen, die diesen Namen behalten.

Sagen Sie etwas wie "Ich habe eine Regression durchgeführt, um Bilder zu klassifizieren. Insbesondere habe ich eine logistische Regression verwendet." ist falsch.

— iliasfl
quelle

2

Die logistische Regression kann als binärer Klassifikator verwendet werden, ist jedoch nicht von Natur aus einer. Sie können es verwenden, um Quoten zu schätzen oder die Beziehung einer Prädiktorvariablen zum Ergebnis zu bestimmen.

— MattBagg

0

$f$ $f:X\rightarrow \mathbb{R}$ $P(Y=1|\lambda, x)=\dfrac{1}{1+e^{-\lambda^Tx}} \in [0,1]$ $\lambda$ $x$ $sign(P(Y=1|\lambda, x))$

— Mr. Sigma.
quelle