Ich verstehe, dass einer der Gründe, warum die logistische Regression häufig zur Vorhersage der Klickraten im Web verwendet wird, darin besteht, dass gut kalibrierte Modelle erstellt werden. Gibt es dafür eine gute mathematische Erklärung?
Ich verstehe, dass einer der Gründe, warum die logistische Regression häufig zur Vorhersage der Klickraten im Web verwendet wird, darin besteht, dass gut kalibrierte Modelle erstellt werden. Gibt es dafür eine gute mathematische Erklärung?
Antworten:
Ja.
Der vorhergesagte Wahrscheinlichkeitsvektor aus der logistischen Regression erfüllt die Matrixgleichung
Dabei ist die Entwurfsmatrix und y der Antwortvektor. Dies kann als eine Sammlung linearer Gleichungen angesehen werden, die sich aus jeder Spalte der Entwurfsmatrix X ergeben .
Spezialisiert auf die Intercept-Spalte (die eine Zeile in der transponierten Matrix ist) ist die zugehörige lineare Gleichung
Die vorhergesagte Gesamtwahrscheinlichkeit des Durchschnitts ist also gleich dem Durchschnitt der Antwort.
Allgemeiner ist für eine binäre Merkmalsspalte die zugehörige lineare Gleichung
Die Summe (und damit der Durchschnitt) der vorhergesagten Wahrscheinlichkeiten entspricht also der Summe der Antworten, selbst wenn sie sich auf die Datensätze spezialisiert haben, für die
Ich denke, ich kann Ihnen eine leicht verständliche Erklärung wie folgt geben:
m
die vorhergesagte Wahrscheinlichkeit der i-ten Stichprobe: . (Beachten Sie die Voreingenommenheit Hier)
Da das Ziel des Trainings darin besteht, die Verlustfunktion zu minimieren, lassen Sie uns ihre partielle Ableitung in Bezug auf jeden Parameter bewerten (Die detaillierte Ableitung finden Sie hier ):
And setting it to zero yeils:
That means that if the model is fully trained, the predicted probabilities we get for the training set spread themselves out so that for each feature the sum of the weighted (all) values of that feature is equal to the sum of the values of that feature of the positive samples.
The above fits every feature so as the bias . Setting as 1 and as yeilds:
Wir können offensichtlich sehen, dass die logistische Regression gut kalibriert ist.
Referenz: Log-lineare Modelle und bedingte Zufallsfelder von Charles Elkan