Mittelwert Null und Einheitsvarianz


Antworten:


8

Die Frage, ob und warum es wichtig ist, hängt vom Kontext ab.

  • Für gradientenverstärkte Entscheidungsbäume ist dies beispielsweise nicht wichtig - diese ML-Algorithmen kümmern sich nicht um monotone Transformationen der Daten. Sie suchen nur nach Punkten, um es zu teilen.

  • Bei linearen Prädiktoren kann beispielsweise die Skalierung die Interpretierbarkeit der Ergebnisse verbessern. Wenn Sie sich die Größe der Koeffizienten als Hinweis darauf vorstellen möchten, wie stark ein Feature das Ergebnis beeinflusst, müssen die Features irgendwie auf denselben Bereich skaliert werden.

  • Für einige Prädiktoren, insbesondere NNs, kann die Skalierung und insbesondere die Skalierung auf einen bestimmten Bereich aus technischen Gründen wichtig sein. Einige der Ebenen verwenden Funktionen, die sich nur in einem bestimmten Bereich effektiv ändern (ähnlich der hyperbolischen Funktionsfamilie ). Wenn die Merkmale zu weit außerhalb des Bereichs liegen, kann es zu einer Sättigung kommen. In diesem Fall funktionieren numerische Ableitungen schlecht und der Algorithmus kann möglicherweise nicht zu einem guten Punkt konvergieren.

Geben Sie hier die Bildbeschreibung ein


2

Im Fall eines Mittelwerts von Null liegt dies daran, dass einige Modelle des maschinellen Lernens keinen Bias-Term in ihrer Darstellung enthalten, sodass wir Daten um den Ursprung verschieben müssen, bevor wir sie dem Algorithmus zuführen, um das Fehlen eines Bias-Terms auszugleichen. Im Falle einer Einheitsvarianz liegt dies daran, dass viele Algorithmen für maschinelles Lernen eine Art Distanz (z. B. euklidisch) verwenden, um zu entscheiden oder vorherzusagen. Wenn ein bestimmtes Merkmal breite Werte aufweist (dh große Varianz), wird der Abstand stark von diesem Merkmal beeinflusst und die Auswirkung anderer Merkmale wird ignoriert. Übrigens haben einige Optimierungsalgorithmen (einschließlich Gradientenabstieg) eine bessere Leistung, wenn die Daten standardisiert sind.


2
  • Wenn wir beim maschinellen Lernen mit einem Datensatz beginnen, gehen wir häufig davon aus, dass alle Datenmerkmale in Bezug auf die Ausgabe gleich wichtig sind und ein Merkmal nicht das andere Merkmal dominieren sollte. Das ist im Allgemeinen der Grund, warum wir uns dafür entschieden haben, alle Funktionen auf den gleichen Maßstab zu bringen.
    Man kann hier jedoch Zweifel aufkommen lassen, dass selbst wenn die Merkmale nicht normalisiert sind, die beim Lernen zugewiesenen Gewichte dazu beitragen können, dass der Datensatz während des Trainings zur erwarteten Ausgabe konvergiert. Das Problem dabei ist, dass es sehr lange dauern wird, um zu trainieren und Ergebnisse zu erzielen.
  • Die Auswahl einer bestimmten Zahl 0 als Mittelwert und Varianz 1 ist nur die einfache Visualisierung, und das Beibehalten derart kleiner Zahlen würde zu einem schnelleren Training beitragen.

Daher wird empfohlen, alle Funktionen auf den gleichen Maßstab zu bringen, der kleiner genug ist, um problemlos trainiert zu werden. Der folgende Link beschreibt auch ein ähnliches Konzept. /stats/41704/how-and-why-do-normalization-and-feature-scaling-work

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.