Nehmen Sie im Allgemeinen an, dass Sie sich für ein Modell des Formulars entschieden haben
P(y=1|X=x)=h(x;Θ)
für einige Parameter . Dann schreiben Sie einfach die Wahrscheinlichkeit dafür auf, dhΘ
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0P(y=0|x=x;Θ)
das ist das gleiche wie
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0(1−P(y=1|x=x;Θ))
Jetzt haben Sie beschlossen, "anzunehmen" (Modell)
P(y=1|X=x)=σ(Θ0+Θ1x)
wobei
σ(z)=1/(1+e−z)
so berechnen Sie nur die Formel für die Wahrscheinlichkeit und tun irgendeine Art von Optimierungsalgorithmus, um die zu finden , beispielsweise Newtons Verfahren oder einem anderen Gradienten basierenden Verfahren.argmaxΘL(Θ)
Beachten Sie, dass die Leute manchmal sagen, dass sie bei der Durchführung einer logistischen Regression nicht die Wahrscheinlichkeit maximieren (wie wir / Sie es oben getan haben), sondern vielmehr die Verlustfunktion minimieren
l(Θ)=−∑i=1Nyilog(P(Yi=1|X=x;Θ))+(1−yi)log(P(Yi=0|X=x;Θ))
aber beachte, dass .−log(L(Θ))=l(Θ)
Dies ist ein allgemeines Muster im maschinellen Lernen: Die praktische Seite (Minimierung von Verlustfunktionen, die messen, wie 'falsch' ein heuristisches Modell ist) ist in der Tat gleich der 'theoretischen Seite' (Modellierung explizit mit dem Symbol, Maximierung statistischer Größen wie Wahrscheinlichkeiten) und in der Tat können viele Modelle, die nicht wie probabilistische aussehen (z. B. SVMs), in einem probabilistischen Kontext neu verstanden werden und sind tatsächlich Maximierungen von Wahrscheinlichkeiten.P