Kurzer Hintergrund
Die Fehlermetrik (ein geeigneter Begriff, der im Fragentitel verwendet wird) quantifiziert die Eignung eines linearen oder nichtlinearen Modells.
Es aggregiert einzelne Fehler über eine Reihe von Beobachtungen (Instanzen von Trainingsdaten). Bei einer typischen Verwendung wird eine Fehlerfunktion auf die Differenz zwischen dem vom Modell vorhergesagten abhängigen Variablenvektor und empirischen Beobachtungen angewendet. Diese Unterschiede werden für jede Beobachtung berechnet und dann summiert. 1
Warum Entfernung im Quadrat?
Legendre, der zuerst die Methode der Quadratsumme zur Messung der Fitness des Modells veröffentlichte (Paris 1705), stellte richtig fest, dass das Quadrieren vor dem Summieren zweckmäßig ist. Warum hat er das geschrieben?
Man könnte den Absolutwert des Fehlers oder den Absolutwert seines Würfels verwenden, aber die Diskontinuität der Ableitung des Absolutwerts macht die Funktion NICHT glatt. Funktionen, die NICHT glatt sind, verursachen unnötige Schwierigkeiten bei der Verwendung der linearen Algebra zum Ableiten geschlossener Formen (einfache algebraische Ausdrücke).
Geschlossene Formen sind praktisch, wenn man Steigung und Achsenabschnitt in linearer Regression schnell und einfach berechnen möchte. 2
Gradientenabstieg
Gradientenabstieg wird im Allgemeinen für nichtlineare Regression verwendet. Da für viele nichtlineare Modelle keine geschlossenen Formen erstellt werden können, wird die Iteration zu einer dominanten Methode zur Validierung oder Optimierung des Modells.
Ein intuitives Verständnis des Gefälles kann erreicht werden, indem eine durstige, blinde Person betrachtet wird, die nur an Land nach Wasser sucht, indem sie kalkulierte Schritte unternimmt. (In der Software sind diese Schritte Iterationen.) Der Blinde kann die Richtung des Höhengradienten (Neigungsrichtung) nur mit den Füßen erfassen, um auf eine lokale Mindesthöhe abzusteigen. 3
Jeder, der sagt, dass "die Funktion selbst keine Rolle spielt", in Bezug auf die üblichen Anwendungen des Gradientenabstiegs, wäre eine gefährliche Wahl für den Führer einer blinden Wanderexpedition. Zum Beispiel würde der Kehrwert der Entfernung als Fehlerfunktion wahrscheinlich zur Dehydration und zum Tod der Wanderer führen.
Die Auswahlkriterien für Fehlermetriken sind wichtig, wenn man an der Geschwindigkeit der Konvergenz einer Lösung interessiert ist oder wenn die Lösung jemals gefunden wird. 4
Da der Gradient einer Ebene (lineare Oberfläche) eine Konstante ist, ist die Verwendung des Gradientenabfalls für lineare Modelle verschwenderisch. Die blinde Person muss den Winkel ihres Fußes nicht weiter messen.
Vorzeichen der Fehlermetrik
Die Aussage "Das Ergebnis sollte positiv sein, damit positive und negative Abweichungen weiterhin gezählt werden" ist falsch. 5
Wirksamkeit von Fehlermetriken in Bezug auf 1.0
Da die partielle Ableitung der Fehlermetrik der kleinsten Quadrate in Bezug auf einen Fehler an einem bestimmten Punkt konstant ist, konvergiert die Fehlermetrik der kleinsten Quadrate ähnlich über und unter 1,0.
Anmerkungen
[1] Die Dimensionen der unabhängigen und abhängigen variablen Vektoren eines Modells werden beim maschinellen Lernen üblicherweise als Merkmale bzw. Bezeichnungen bezeichnet.
[2] Eine andere glatte Funktion, wie der Fehler der vierten Potenz, würde ebenfalls zu geschlossenen Formen für Steigung und Achsenabschnitt führen, obwohl sie geringfügig unterschiedliche Ergebnisse liefern würden, wenn der Korrelationskoeffizient ungleich Null ist.
[3] Gradientenabstiegsalgorithmen garantieren im Allgemeinen nicht das Finden eines globalen Minimums. In dem gegebenen Beispiel wäre es möglich zu übersehen, dass ein kleines Loch mit Wasser darin vorhanden ist. Abhängig von den Oberflächenmerkmalen (Gelände) kann die Erfassung des Fußwinkels (Bestimmung des Gefälles) kontraproduktiv sein. Die Suche kann chaotisch werden. Um die intuitive Analogie zu erweitern, sollten Sie in Eschers Relativitätslithographie nach dem Fuß der Treppe suchen.
[4] Damit eine Fehlermetrik unabhängig von der Richtung des Fehlers wahrscheinlich konvergiert und daher bei der Regression nützlich ist, ist das Vorzeichen der Metrik irrelevant. Es ist jede Menge partieller Ableitungen der Fehlermetrik in Bezug auf die entsprechende Menge von Abständen zwischen den Modellvorhersagen und Beobachtungen, die positiv sein sollten, um sich omnidirektional zurückzubilden. Es klingt komplizierter, aber selbst diese korrigierte Aussage ist eine übermäßige Vereinfachung.
[5] Die Fehlermetrik in Anwendungen mit Gradientenabstieg wird häufig mithilfe einer konvexen Funktion berechnet, um ein Überschwingen und mögliche Schwingungen und Nichtkonvergenz zu vermeiden. In einigen Fällen werden andere Fehlerfunktionen als die Summe der Quadrate verwendet. Die Wahl der Funktion hat mit einer Reihe von Faktoren zu tun:
- Das Modell, an das die Daten angepasst werden sollen
- Faktoren, von denen erwartet wird, dass sie Abweichungen der Beobachtungen (Trainingsdaten) vom Modell beeinflussen oder tatsächlich beeinflussen
- Rechenressourcen relativ zur Größe des Datensatzes