Warum wird logistische Regression nicht als logistische Klassifizierung bezeichnet?

75

Da es sich bei der logistischen Regression um ein statistisches Klassifizierungsmodell handelt, das sich mit kategorienabhängigen Variablen befasst, warum wird es nicht als logistische Klassifizierung bezeichnet ? Sollte der Name "Regression" nicht Modellen vorbehalten sein, die sich mit stetigen abhängigen Variablen befassen?

— Ismael Ghalimi
quelle

5

Die logistische Regression gehört zur GLM-Modellfamilie.

— Stéphane Laurent

10

Sie können es verwenden, um Wahrscheinlichkeiten zurückzugreifen.

— Emre

25

Zwar kann die logistische Regression durchaus zur Klassifizierung herangezogen werden, indem ein Schwellenwert für die zurückgegebenen Wahrscheinlichkeiten eingeführt wird, dies ist jedoch kaum ihre einzige Verwendung - oder sogar ihre primäre Verwendung. Es wurde für Regressionszwecke entwickelt und wird weiterhin für Regressionszwecke verwendet, die nichts mit Klassifizierung zu tun haben. Ich würde behaupten, dass dies immer noch leicht das ist, wofür es am häufigsten verwendet wird, aber ich nehme an, es hängt davon ab, was man sich ansieht.

— Glen_b

6

Sie könnten dieses Papier über die Entwicklung der logistischen Regression interessant finden, zumal es einen Sinn für die Art von Problemen gibt, für die es als Regressionstechnik verwendet wird.

— Glen_b

102

Die logistische Regression ist nachdrücklich kein eigenständiger Klassifizierungsalgorithmus. Es ist nur ein Klassifizierungsalgorithmus in Kombination mit einer Entscheidungsregel, der die vorhergesagten Wahrscheinlichkeiten des Ergebnisses dichotom macht. Die logistische Regression ist ein Regressionsmodell, da sie die Wahrscheinlichkeit einer Klassenzugehörigkeit als (Transformation einer) multilinearen Funktion der Features schätzt.

Frank Harrell hat auf dieser Website eine Reihe von Antworten veröffentlicht, in denen die Fallstricke aufgezählt werden, die es mit sich bringt, logistische Regression als Klassifizierungsalgorithmus zu betrachten. Unter ihnen:

Die Klassifizierung ist eine Entscheidung . Um eine optimale Entscheidung zu treffen, müssen Sie eine Nutzenfunktion bewerten, was bedeutet, dass Sie die Unsicherheit im Ergebnis, dh eine Wahrscheinlichkeit, berücksichtigen müssen. ≈
Die Kosten einer Fehlklassifizierung sind nicht für alle Einheiten einheitlich.
Verwenden Sie keine Cutoffs.
Verwenden Sie die richtigen Bewertungsregeln.
Das Problem ist tatsächlich die Risikoeinschätzung, nicht die Klassifizierung.

Wenn ich mich richtig erinnere, hat er mich einmal auf sein Buch über Regressionsstrategien hingewiesen, um diese (und noch mehr!) Punkte näher zu erläutern, aber ich kann diesen bestimmten Beitrag anscheinend nicht finden.

— Sycorax
quelle

1

Wenn dies der Fall ist, sagen alle (oder die meisten) Klassifikatoren voraus, dass die Wahrscheinlichkeiten zuerst zu einer Klasse gehören (soweit ich weiß) und transformieren diese Wahrscheinlichkeit dann in Klassen.

— Ausreißer

9

@Outlier Counterexample: SVM berechnet überhaupt keine Klassenwahrscheinlichkeiten, sondern misst nur den Abstand zwischen einer Beobachtung und einer Hyperebene.

— Sycorax

@Outlier in ML werden diese als probabilistische Klassifikatoren bezeichnet. Bäume und zufällige Wälder sind es nicht, xgboost ist - zumindest mit logloss)

— seanv507

12

Abstrakt ist die Regression das Problem der Berechnung einer bedingten Erwartung . Die Form, die diese Erwartung annimmt, hängt von den Annahmen ab, wie die Daten generiert wurden: $E[Y|X=x]$

Angenommen (Y | X = x) sind normalverteilte Ausbeuten mit klassischer linearer Regression.
Die Annahme einer Poisson-Verteilung ergibt eine Poisson-Regression.
Die Annahme einer Bernoulli-Verteilung führt zu einer logistischen Regression.

Der Begriff "Regression" wurde auch allgemeiner verwendet, einschließlich Ansätzen wie der Quantilregression, die ein gegebenes Quantil von schätzt . $(Y|X=x)$

— Chad Scherrer
quelle

-3

Abgesehen von den bereits gegebenen guten Antworten ist eine andere Ansicht, dass die logistische Regression Wahrscheinlichkeiten (die ein kontinuierlicher Wert sind ) vorhersagt , die einen Bereich von 0 bis 1 haben.

— krish___na
quelle