Was ist der Unterschied zwischen linearer und logistischer Regression?

122

Wann würden Sie jeweils verwenden?

regression logistic linear-model

— B Sieben
quelle

Im linearen Regressionsmodell wird die abhängige Variable als stetig betrachtet, während sie in der logistischen Regression kategorisch, dh diskret ist. In der Anwendung wird Ersteres in Regressionseinstellungen verwendet, während Letzteres für die binäre Klassifizierung oder die Klassifizierung mehrerer Klassen (wo es als logistische multinomiale Regression bezeichnet wird) verwendet wird.

y

$y$

— Pardis

Obwohl in einem anderen Kontext geschrieben, kann es hilfreich sein, meine Antwort hier zu lesen: Unterschied zwischen logit- und probit-Modellen , die viele Informationen über die Vorgänge in der logistischen Regression enthält, die Ihnen helfen können, diese besser zu verstehen.

— Gung

Alle vorherigen Antworten sind richtig, aber es gibt Gründe, warum Sie möglicherweise ein lineares Regressionsmodell bevorzugen, auch wenn Ihr Ergebnis eine Dichotomie ist. Ich habe über diesen Gründen geschrieben hier: statisticalhorizons.com/linear-vs-logistic

— Paul von Hippel

Antworten:

111

Die lineare Regression verwendet die allgemeine lineare Gleichung wobei eine kontinuierliche abhängige Variable und unabhängige Variablen ist sind in der Regel kontinuierlicher (aber auch binär sein kann, beispielsweise wenn das lineare Modell in einem t- verwendet wird Test) oder andere diskrete Domänen. ist ein Ausdruck für die Varianz, die vom Modell nicht erklärt wird und normalerweise nur als "Fehler" bezeichnet wird. Einzelne abhängige Werte, die mit können gelöst werden, indem die Gleichung ein wenig modifiziert wird: $Y=b_0+∑(b_i X_i)+\epsilon$ $Y$ $X_i$ $\epsilon$ $Y_j$ $Y_j=b_0 + \sum{(b_i X_{ij})+\epsilon_j}$

Die logistische Regression ist ein weiteres verallgemeinertes lineares Modell (GLM), das dieselbe Grundformel verwendet, aber anstelle des stetigen um die Wahrscheinlichkeit eines kategorialen Ergebnisses regressiert. In der einfachsten Form bedeutet dies, dass wir nur eine Ergebnisvariable und zwei Zustände dieser Variablen betrachten - entweder 0 oder 1. $Y$

Die Gleichung für die Wahrscheinlichkeit von sieht folgendermaßen aus: $Y=1$

P (Y = 1) = \frac{1}{1 + e^{- (b_{0} + \sum (b_{i} X_{i}))}}

$P(Y=1) = {1 \over 1+e^{-(b_0+\sum{(b_iX_i)})}}$

Ihre unabhängigen Variablen können stetig oder binär sein. Die Regressionskoeffizienten können werden, um die Änderung der Quote von pro Änderung von , dh und . heißt das Quotenverhältnis, . Im Englischen kann man sagen, dass sich die Wahrscheinlichkeit von um einen Faktor von pro Änderung der Einheit in erhöht . $X_i$ $b_i$ $Y$ $X_i$ $Odds={P(Y=1) \over P(Y=0)}={P(Y=1) \over 1-P(Y=1)}$ ${\Delta Odds}= e^{b_i}$ $\Delta Odds$ $Odds(X_i+1)\over Odds(X_i)$ $Y=1$ $e^{b_i}$ $X_i$

Beispiel: Wenn Sie sehen möchten, wie der Body-Mass-Index das Cholesterin im Blut vorhersagt (ein kontinuierliches Maß), verwenden Sie die oben in meiner Antwort beschriebene lineare Regression. Wenn Sie sehen möchten, wie der BMI die Wahrscheinlichkeit eines Diabetikers vorhersagt (eine binäre Diagnose), würden Sie die logistische Regression verwenden.

— DocBuckets
quelle

Das sieht nach einer guten Antwort aus, aber können Sie erklären, wofür steht und warum Sie sie in die Summierungen einbeziehen? (Was wird überhaupt zusammengefasst?)

ϵ_{i}

$\epsilon_i$

— whuber

Es sieht für mich so aus, als ob Bill wollte, dass er schreibt, dh (lateinische Abkürzung dafür ist), und nicht ei

— Michael Chernick

Aber das εi in der Summe des Exponenten sollte nicht da sein. Es sieht so aus, als wäre der Geräuschbegriff im Modell versehentlich dort hingetragen worden. Die einzige Summierung sollte über dem Bis liegen, das die p-Koeffizienten für die p-Kovariaten darstellt.

— Michael Chernick

Ihr Ausdruck enthält einen Fehler für . Sie sollten nicht Die Zufälligkeit in einem logistischen Regressionsmodell ergibt sich aus der Tatsache, dass es sich um Bernoulli-Versuche handelt, und nicht aus Fehlern in den Erfolgswahrscheinlichkeiten (wie auch immer) du hast es geschrieben).

P (Y = 1)

$P(Y=1)$

P (Y = 1) = \frac{1}{1 + \exp {- X β}},

$P(Y=1) = \frac{1}{1 + \exp \{-X \boldsymbol{\beta} \} },$

P (Y = 1) = \frac{1}{1 + \exp {- (X β + ε)}}

$P(Y=1) = \frac{1}{1 + \exp \{ -(X \boldsymbol{\beta}+\varepsilon) \} }$

— Makro

@samthebrand logistische Regression ist per se nicht binär. Es kann verwendet werden, um Daten mit einer binären Antwort über Wahrscheinlichkeiten im Bereich zwischen 0 und 1 zu modellieren. Ich werde meinen Blog-Beitrag schamlos damit ausstopfen, was Ihre Verwirrung lindern sollte.

— Ben

Die lineare Regression wird verwendet, um eine Beziehung zwischen abhängigen und unabhängigen Variablen herzustellen, die bei der Schätzung der resultierenden abhängigen Variablen für den Fall einer unabhängigen Variablenänderung hilfreich ist. Zum Beispiel:

Unter Verwendung einer linearen Regression wird die Beziehung zwischen Regen (R) und Regenschirmverkäufen (U) zu - U = 2R + 5000 ermittelt

Diese Gleichung besagt, dass pro 1 mm Regen 5002 Schirme benötigt werden. Mit der einfachen Regression können Sie also den Wert Ihrer Variablen schätzen.

Die logistische Regression wird dagegen verwendet, um die Wahrscheinlichkeit eines Ereignisses zu ermitteln. Und dieses Ereignis wird im Binärformat erfasst, dh 0 oder 1.

Beispiel - Ich möchte feststellen, ob ein Kunde mein Produkt kauft oder nicht. Dazu würde ich eine logistische Regression für die (relevanten) Daten ausführen und meine abhängige Variable wäre eine binäre Variable (1 = Ja; 0 = Nein).

In Bezug auf die grafische Darstellung gibt die lineare Regression eine lineare Linie als Ausgabe aus, sobald die Werte im Diagramm dargestellt sind. Während die logistische Regression eine S-förmige Linie ergibt

Referenz von Mohit Khurana.

— Vijay Ram
quelle

Betreff: "Mit der linearen Regression wird eine Beziehung zwischen abhängigen und unabhängigen Variablen hergestellt." Dies gilt auch für die logistische Regression. Die abhängige Variable ist lediglich binär.

— Makro

Die logistische Regression dient nicht nur zur Vorhersage eines binären Ereignisses ( Klassen). Es kann auf Klassen verallgemeinert werden (multinomiale logistische Regression)

2

$2$

k

$k$

— bis zum

Die Unterschiede wurden von DocBuckets und Pardis beigelegt, aber ich möchte eine Möglichkeit hinzufügen, um ihre Leistung zu vergleichen, die nicht erwähnt wurde.

Die lineare Regression wird normalerweise durch Minimieren des Fehlers der kleinsten Fehlerquadrate des Modells auf die Daten gelöst. Daher werden große Fehler quadratisch bestraft. Die logistische Regression ist genau das Gegenteil. Die Verwendung der logistischen Verlustfunktion führt dazu, dass große Fehler mit einer asymptotischen Konstante geahndet werden.

Betrachten Sie die lineare Regression für ein kategoriales {0,1} Ergebnis, um herauszufinden, warum dies ein Problem ist. Wenn Ihr Modell voraussagt, dass das Ergebnis 38 ist, wenn die Wahrheit 1 ist, haben Sie nichts verloren. Die lineare Regression würde versuchen, diese 38 zu reduzieren, die Logistik würde nicht (so viel).

— J. Abrahamson
quelle

Waren es dann die Situationen / Fälle, die in einer Logistik bestraft werden, dh in welchen Fällen hätten wir einen schlechten Anfall?

— MSIS

Im Gegenteil: Immer wenn größere Abweichungen von der Passform tatsächlich zu schlechteren Ergebnissen führen. Zum Beispiel ist eine logistische Regression gut, um Sie daran zu hindern, eine Dartscheibe zu treffen, aber ein Bullauge kann nicht schön aussehen. Oder ähnlich denkt, dass ein Beinahe-Fehlschuss das Gleiche ist, als würde man seinen Nachbarn festhalten.

— J. Abrahamson

Gute Antwort. Wurde untersucht, inwieweit dies die Leistung des Modells beeinträchtigt? Ich meine, wenn eine lineare Regression anstelle einer logistischen Regression verwendet wurde, um die Antwort = {0,1} vorherzusagen.

— Tagar