Wenn es in der Statistik darum geht, die Wahrscheinlichkeit zu maximieren, geht es beim maschinellen Lernen darum, den Verlust zu minimieren. Da Sie den Verlust, den Sie bei zukünftigen Daten erleiden werden, nicht kennen, minimieren Sie eine Annäherung, dh einen empirischen Verlust.
Wenn Sie beispielsweise eine Vorhersageaufgabe haben und anhand der Anzahl von Fehlklassifizierungen bewertet werden, können Sie Parameter trainieren, sodass das resultierende Modell die geringste Anzahl von Fehlklassifizierungen für die Trainingsdaten erzeugt. "Anzahl der Fehlklassifizierungen" (dh 0-1 Verlust) ist eine schwer zu bearbeitende Verlustfunktion, da sie nicht differenzierbar ist, sodass Sie sie mit einem glatten "Ersatz" approximieren. Zum Beispiel ist der Protokollverlust eine Obergrenze für den 0-1-Verlust, sodass Sie diesen minimieren können. Dies entspricht der Maximierung der bedingten Wahrscheinlichkeit der Daten. Mit dem parametrischen Modell entspricht dieser Ansatz der logistischen Regression.
In einer strukturierten Modellierungsaufgabe und einer Log-Loss-Approximation von 0-1-Verlust erhalten Sie etwas anderes als die maximale bedingte Wahrscheinlichkeit. Stattdessen maximieren Sie das Produkt der (bedingten) Grenzwahrscheinlichkeiten.
Um eine bessere Schätzung des Schadens zu erhalten, bemerkten die Menschen, dass das Trainingsmodell zur Minimierung des Schadens und die Verwendung dieses Schadens als Schätzung des zukünftigen Schadens eine zu optimistische Schätzung ist. Für eine genauere (echte zukünftige Verlust-) Minimierung fügen sie dem empirischen Verlust einen Verzerrungskorrekturterm hinzu und minimieren diesen, was als strukturierte Risikominimierung bezeichnet wird.
In der Praxis kann es zu schwierig sein, den richtigen Bias-Korrekturterm herauszufinden. Fügen Sie daher einen Ausdruck "im Geiste" des Bias-Korrekturterms hinzu, z. B. die Summe der Quadrate von Parametern. Am Ende trainieren fast alle Ansätze mit Überwachung des parametrischen maschinellen Lernens das Modell, um Folgendes zu minimieren
∑ichL ( m ( xich, w ) , yich) + P( w )
wo Modells durch den Vektor parametrisiert ist , ist , alle Datenpunkte übernommen , einige rechen schöne Annäherung des wahren Verlust ist und ist einige Vorspannungs-Korrektur / Regularisierung Begriff w i { x i , y i } L P ( w )mwich{ xich, yich}LP( w )
Wenn beispielsweise Ihr , , wäre ein typischer Ansatz, , , und wählen Sie durch Kreuzvalidierung y ≤ { - 1 , 1 } m ( x ) = Vorzeichen ( w ≤ x ) L ( m ( x ) , y ) = - log ( y × ( x ≤ w ) ) P ( w ) = q × ( w ⋅ w )x ∈ { - 1 , 1 }dy∈{−1,1}m(x)=sign(w⋅x)L ( m ( x ) , y) = - log( y× ( x ⋅ w ) )P( w ) = q× ( w ⋅ w )q