Was ist der Unterschied zwischen Entscheidungsfunktion, Vorhersagefunktion und Vorhersagefunktion für das logistische Regressionsproblem?

Ich habe die sklearn-Dokumentation durchgearbeitet, kann jedoch den Zweck dieser Funktionen im Kontext der logistischen Regression nicht verstehen. Denn decision_functiones heißt, dass es der Abstand zwischen der Hyperebene und der Testinstanz ist. Wie sind diese speziellen Informationen nützlich? und wie hängt das mit predictund predict-probamethoden zusammen?

— Gleich
quelle

Denken Sie daran, dass die funktionale Form der logistischen Regression ist

f (x) = \frac{1}{1 + e^{- (β_{0} + β_{1} x_{1} + \dots + β_{k} x_{k})}}

$f(x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k)}}$

Dies ist, was von zurückgegeben wird predict_proba.

Der Begriff innerhalb des Exponentials

d (x) = β_{0} + β_{1} x_{1} + \dots + β_{k} x_{k}

$d(x) = \beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k$

ist das, was von zurückgegeben wird decision_function. Die "Hyperebene", auf die in der Dokumentation Bezug genommen wird, ist

β_{0} + β_{1} x_{1} + \dots + β_{k} x_{k} = 0

$\beta_0 + \beta_1 x_1 + \cdots + \beta_k x_k = 0$

Diese Terminologie ist ein Überbleibsel von Support-Vektor-Maschinen, die eine trennende Hyperebene buchstäblich schätzen. Für die logistische Regression ist diese Hyperebene ein künstliches Konstrukt, es ist die Ebene gleicher Wahrscheinlichkeit, bei der das Modell festgestellt hat, dass beide Zielklassen gleich wahrscheinlich sind.

Die predictFunktion gibt mithilfe der Regel eine Klassenentscheidung zurück

f (x) > 0.5

$f(x) > 0.5$

Aufgrund des Risikos von Seifenkisten hat die predictFunktion nur sehr wenige legitime Verwendungszwecke, und ich betrachte die Verwendung als Zeichen eines Fehlers bei der Überprüfung anderer Arbeiten. Ich würde weit genug gehen, um es als Designfehler in sklearn selbst zu bezeichnen (die predict_probaFunktion hätte aufgerufen werden predictmüssen und predicthätte aufgerufen werden müssen predict_class, wenn überhaupt).

— Matthew Drury
quelle

Vielen Dank für die Antwort @Matthew, aber können Sie diesen Punkt etwas genauer erläutern? "Für die logistische Regression ist diese Hyperebene ein künstliches Konstrukt, es ist die Ebene gleicher Wahrscheinlichkeit, bei der das Modell festgestellt hat, dass beide Zielklassen gleich wahrscheinlich sind . " ?

— Sameed

Diese Erklärung ist interessant und hilfreich. Ich wünschte, sklearn hätte es besser erklärt. Was ich nicht verstehe, ist, was es nützt, den Wert von x in der logistischen Funktion 1 / (1 + e ^ -x) zu kennen? Ich kann mir nur vorstellen, möglicherweise eine andere Sigmoidfunktion wie x / (1+ | x |) zu verwenden. Ist da mehr? Vielen Dank!

— ldmtwo

Grundsätzlich sollte die Entscheidungsfunktion das Sigmoid in der logistischen Regression gewesen sein. Richtig?

— 3nomis

Ich denke, der Grund dafür, dass @Matthew auf einer Seifenkiste ist, ist, dass die Verwendung von 0,5 als Schwellenwert für die Vorhersage naiv ist. Das erste, was man tun sollte, ist zu lernen, Kreuzvalidierung, ROC-Kurven und AUC zu verwenden, um einen geeigneten Schwellenwert c auszuwählen, und als Entscheidungsfunktion f (x)> c zu verwenden.

— 4.