Ihr Verlust Funktion würde nicht funktionieren , weil es Einstellung incentivizes einen endlichen Wert und zu .θ1θ0−∞
Nennen wir das Residuum für .r(x,y)=1m∑mi=1hθ(x(i))−yhh
Ihr Ziel ist es, so nahe wie möglich an Null zu bringen und nicht nur zu minimieren . Ein hoher negativer Wert ist genauso schlecht wie ein hoher positiver Wert.r
BEARBEITEN: Sie können dem entgegenwirken, indem Sie den Parameterraum künstlich begrenzen (z. B. möchten Sie ). In diesem Fall würden die optimalen Parameter an bestimmten Punkten an der Grenze des Parameterraums liegen. Siehe https://math.stackexchange.com/q/896388/12467 . Das ist nicht was du willst.Θ|θ0|<10
Warum verwenden wir den Quadratverlust?
Der quadratische Fehler zwingt und zur Übereinstimmung. Wenn möglich, wird es bei minimiert und ist immer , da es ein Quadrat der reellen Zahl .h(x)yu=v≥0u−v
|u−v|würde auch für den obigen Zweck funktionieren, wie mit einer positiven ganzen Zahl. Die erste davon ist tatsächlich verwendet (es ist die genannte Verlust, man könnte auch über die kommen Verlust, der ein anderer Name für quadratische Fehler ist).(u−v)2nnℓ1ℓ2
Warum ist der Quadratverlust also besser als diese? Dies ist eine tiefe Frage im Zusammenhang mit der Verbindung zwischen häufigem und bayesianischem Schluss. Kurz gesagt, der quadratische Fehler bezieht sich auf das Gaußsche Rauschen .
Wenn Ihre Daten nicht genau zu allen Punkten passen, dh für einen bestimmten Punkt nicht Null ist, unabhängig davon, welches Sie wählen (wie dies in der Praxis immer der Fall ist), kann dies an Rauschen liegen . In jedem komplexen System gibt es viele kleine seine unabhängigen Ursachen für den Unterschied zwischen Ihrem Modell und Wirklichkeit : Messfehler, Umweltfaktoren etc. Unter dem zentralen Grenzwertsatz (CLT), würde das Gesamtrauschen verteilt Normalerweise , das heißt nach dem Gaußsche Verteilung . Wir wollen die beste Lösung wählenh(x)−yθ h yθunter Berücksichtigung dieser Geräuschverteilung. Angenommen, , der Teil von , den Ihr Modell nicht erklären kann, folgt der Gaußschen Verteilung . Wir verwenden Großbuchstaben, weil wir jetzt über Zufallsvariablen sprechen.R=h(X)−YyN(μ,σ)
Die Gaußsche Verteilung hat zwei Parameter: Mittelwert und Varianz . Sehen Sie hier , um diese Begriffe besser zu verstehen.μ=E[R]=1m∑ihθ(X(i))−Y(i))σ2=E[R2]=1m∑i(hθ(X(i))−Y(i)))2
Betrachten , ist es der systematische Fehler unserer Messungen. Verwenden Sie , um systematische Fehler zu korrigieren, sodass (Übung für den Leser). Hier gibt es nichts anderes zu tun.μh′(x)=h(x)−μμ′=E[R′]=0
σ repräsentiert den Zufallsfehler , auch Rauschen genannt . Wenn wir uns wie im vorigen Punkt um die systematische Rauschkomponente gekümmert haben, wird der beste Prädiktor erhalten, wenn wird minimiert. Anders ausgedrückt ist der beste Prädiktor derjenige mit der engsten Verteilung (kleinste Varianz) um den vorhergesagten Wert, dh der kleinsten Varianz. Das Minimieren des kleinsten quadratischen Verlusts ist dasselbe wie das Minimieren der Varianz! Dies erklärt, warum der kleinste quadratische Verlust für eine Vielzahl von Problemen geeignet ist. Das zugrunde liegende Rauschen ist aufgrund der CLT sehr oft Gaußsch und die Minimierung des quadratischen Fehlers stellt sich als richtig herausσ2=1m∑i(hθ(X(i))−Y(i)))2 etwas zu tun!
Um gleichzeitig sowohl den Mittelwert und die Varianz zu berücksichtigen, wir sind ein Bias - Begriff in unserem Klassifizierer (zu handhaben systematische Fehler ), minimieren dann den Platz Verlust.μ
Folgefragen:
ℓ1|x−μ|(x−μ)2ℓ1
Gibt es Situationen, in denen wir sowohl den Mittelwert als auch die Varianz minimieren? Ja. Look up Bias-Variance Tradeoff . Hier sehen wir uns eine Reihe von Klassifikatoren und fragen, welche unter ihnen die beste ist. Wenn wir uns fragen, welcher Satz von Klassifikatoren für ein Problem am besten geeignet ist, wird es wichtig, sowohl die Verzerrung als auch die Varianz zu minimieren. Es stellt sich heraus, dass es immer einen Kompromiss zwischen ihnen gibt und wir verwenden Regularisierung , um einen Kompromiss zu erzielen.hθ∈H
In Bezug auf den Begriff12
Die 1/2 spielt keine Rolle und eigentlich auch nicht die - sie sind beide Konstanten. Der optimale Wert von würde in beiden Fällen gleich bleiben.mθ
Der Ausdruck für den Farbverlauf wird mit hübscher , da die 2 aus dem Quadrat-Term entfällt.12
- Beim Schreiben von Code oder Algorithmen geht es in der Regel mehr um den Farbverlauf, daher ist es hilfreich, ihn präzise zu halten. Sie können den Fortschritt überprüfen, indem Sie die Norm des Verlaufs überprüfen. Die Verlustfunktion selbst wird manchmal im Code weggelassen, da sie nur zur Validierung der endgültigen Antwort verwendet wird.
Das ist nützlich, wenn Sie dieses Problem mit einem Gefälle lösen. Dann wird Ihr Verlauf zum Durchschnitt von Termen anstelle einer Summe, sodass sich seine Skalierung nicht ändert, wenn Sie weitere Datenpunkte hinzufügen.mm
- Ich bin bereits auf dieses Problem gestoßen: Ich teste Code mit einer kleinen Anzahl von Punkten und es funktioniert einwandfrei, aber wenn Sie ihn mit dem gesamten Datensatz testen, kommt es zu Genauigkeitsverlusten und manchmal zu Über- / Unterläufen, dh Ihr Farbverlauf wird
nan
oder inf
. Um dies zu vermeiden, normalisieren Sie einfach die Anzahl der Datenpunkte.
Diese ästhetischen Entscheidungen werden hier verwendet, um die Konsistenz mit zukünftigen Gleichungen zu gewährleisten, in denen Sie Regularisierungsterme hinzufügen . Wenn Sie das einschließen , hängt der Regularisierungsparameter nicht von der Größe des Datensatzes und ist problemübergreifend besser interpretierbar.mλm