Was ist der Unterschied zwischen linearer und logistischer Regression?
Wann würden Sie jeweils verwenden?
Was ist der Unterschied zwischen linearer und logistischer Regression?
Wann würden Sie jeweils verwenden?
Antworten:
Die lineare Regression verwendet die allgemeine lineare Gleichung wobei eine kontinuierliche abhängige Variable und unabhängige Variablen ist sind in der Regel kontinuierlicher (aber auch binär sein kann, beispielsweise wenn das lineare Modell in einem t- verwendet wird Test) oder andere diskrete Domänen. ist ein Ausdruck für die Varianz, die vom Modell nicht erklärt wird und normalerweise nur als "Fehler" bezeichnet wird. Einzelne abhängige Werte, die mit können gelöst werden, indem die Gleichung ein wenig modifiziert wird:
Die logistische Regression ist ein weiteres verallgemeinertes lineares Modell (GLM), das dieselbe Grundformel verwendet, aber anstelle des stetigen um die Wahrscheinlichkeit eines kategorialen Ergebnisses regressiert. In der einfachsten Form bedeutet dies, dass wir nur eine Ergebnisvariable und zwei Zustände dieser Variablen betrachten - entweder 0 oder 1.
Die Gleichung für die Wahrscheinlichkeit von sieht folgendermaßen aus:
Ihre unabhängigen Variablen können stetig oder binär sein. Die Regressionskoeffizienten können werden, um die Änderung der Quote von pro Änderung von , dh und . heißt das Quotenverhältnis, . Im Englischen kann man sagen, dass sich die Wahrscheinlichkeit von um einen Faktor von pro Änderung der Einheit in erhöht .
Beispiel: Wenn Sie sehen möchten, wie der Body-Mass-Index das Cholesterin im Blut vorhersagt (ein kontinuierliches Maß), verwenden Sie die oben in meiner Antwort beschriebene lineare Regression. Wenn Sie sehen möchten, wie der BMI die Wahrscheinlichkeit eines Diabetikers vorhersagt (eine binäre Diagnose), würden Sie die logistische Regression verwenden.
Die lineare Regression wird verwendet, um eine Beziehung zwischen abhängigen und unabhängigen Variablen herzustellen, die bei der Schätzung der resultierenden abhängigen Variablen für den Fall einer unabhängigen Variablenänderung hilfreich ist. Zum Beispiel:
Unter Verwendung einer linearen Regression wird die Beziehung zwischen Regen (R) und Regenschirmverkäufen (U) zu - U = 2R + 5000 ermittelt
Diese Gleichung besagt, dass pro 1 mm Regen 5002 Schirme benötigt werden. Mit der einfachen Regression können Sie also den Wert Ihrer Variablen schätzen.
Die logistische Regression wird dagegen verwendet, um die Wahrscheinlichkeit eines Ereignisses zu ermitteln. Und dieses Ereignis wird im Binärformat erfasst, dh 0 oder 1.
Beispiel - Ich möchte feststellen, ob ein Kunde mein Produkt kauft oder nicht. Dazu würde ich eine logistische Regression für die (relevanten) Daten ausführen und meine abhängige Variable wäre eine binäre Variable (1 = Ja; 0 = Nein).
In Bezug auf die grafische Darstellung gibt die lineare Regression eine lineare Linie als Ausgabe aus, sobald die Werte im Diagramm dargestellt sind. Während die logistische Regression eine S-förmige Linie ergibt
Referenz von Mohit Khurana.
Die Unterschiede wurden von DocBuckets und Pardis beigelegt, aber ich möchte eine Möglichkeit hinzufügen, um ihre Leistung zu vergleichen, die nicht erwähnt wurde.
Die lineare Regression wird normalerweise durch Minimieren des Fehlers der kleinsten Fehlerquadrate des Modells auf die Daten gelöst. Daher werden große Fehler quadratisch bestraft. Die logistische Regression ist genau das Gegenteil. Die Verwendung der logistischen Verlustfunktion führt dazu, dass große Fehler mit einer asymptotischen Konstante geahndet werden.
Betrachten Sie die lineare Regression für ein kategoriales {0,1} Ergebnis, um herauszufinden, warum dies ein Problem ist. Wenn Ihr Modell voraussagt, dass das Ergebnis 38 ist, wenn die Wahrheit 1 ist, haben Sie nichts verloren. Die lineare Regression würde versuchen, diese 38 zu reduzieren, die Logistik würde nicht (so viel).