Was sind Regularitäten und Regularisierung?

12

Ich höre diese Wörter immer mehr, während ich maschinelles Lernen studiere. Tatsächlich haben einige Leute die Fields-Medaille gewonnen, indem sie an Gleichungssystemen gearbeitet haben. Ich denke, dies ist ein Begriff, der sich von statistischer Physik / Mathematik zum maschinellen Lernen hinzieht. Natürlich konnten einige Leute, die ich gefragt habe, dies nicht intuitiv erklären.

Ich weiß, dass Methoden wie Dropout bei der Regularisierung helfen (=> sie sagen, sie reduzieren die Überanpassung, aber ich verstehe wirklich nicht, was es ist: Wenn sie nur die Überanpassung reduziert, warum nennt man sie nicht einfach Anti-Überanpassungsmethoden => es muss welche geben etwas mehr denke ich, daher diese Frage).

Ich wäre wirklich dankbar (ich denke, die naive ML-Community wäre es auch!), Wenn Sie erklären könnten:

Wie definieren Sie Regelmäßigkeit? Was ist Regelmäßigkeit?
Ist Regularisierung ein Weg, um Regelmäßigkeit zu gewährleisten? dh Regelmäßigkeiten erfassen?
Warum behaupten Ensemblemethoden wie Dropout und Normalisierungsmethoden, Regularisierung zu betreiben?
Warum treten diese (Regularität / Regularisierung) beim maschinellen Lernen auf?

Vielen dank für Deine Hilfe.

— Rafael
quelle

8

Regularisierung wird in fast allen Algorithmen für maschinelles Lernen angewendet, bei denen wir versuchen, aus endlichen Stichproben von Trainingsdaten zu lernen.

Ich werde versuchen, Ihre spezifischen Fragen indirekt zu beantworten, indem ich die Entstehung des Konzepts der Regularisierung erkläre. Die vollständige Theorie ist viel detaillierter und diese Erklärung sollte nicht als vollständig interpretiert werden, sondern soll Ihnen lediglich den Weg für die weitere Erforschung weisen. Da Ihr primäres Ziel darin besteht, ein intuitives Verständnis der Regularisierung zu erlangen , habe ich die folgende Erklärung aus Kapitel 7 von "Neuronale Netze und Lernmaschinen", 3. Auflage von Simon Haykin, zusammengefasst und stark vereinfacht (und dabei einige Details weggelassen).

Betrachten wir das überwachte Lernproblem mit den unabhängigen Variablen und der abhängigen Variablen , um eine Funktion zu finden , die in der Lage ist, die Eingabe X auf eine Ausgabe Y abzubilden. $x_i$ $y_i$ $f$

Um dies weiter zu verfolgen, lassen Sie uns Hadamards Terminologie eines "gut gestellten" Problems verstehen - ein Problem ist gut gestellt, wenn es die folgenden drei Bedingungen erfüllt:

Für jeden Eingang und Ausgang existiert. $x_i$ $y_i$
Für ein Paar von Eingängen und ist genau dann, wenn . $x_1$ $x_2$ $f(x_1) = f(x_2)$ $x_1 = x_2$
Die Abbildung ist stetig (Stabilitätskriterien) $f$

Für betreutes Lernen können diese Bedingungen verletzt werden, da:

Für eine bestimmte Eingabe ist möglicherweise keine eigene Ausgabe vorhanden.
Die Trainingsmuster enthalten möglicherweise nicht genügend Informationen, um eine eindeutige Eingabe-Ausgabe-Zuordnung zu erstellen (da das Ausführen des Lernalgorithmus für verschiedene Trainingsmuster zu unterschiedlichen Zuordnungsfunktionen führt).
Rauschen in den Daten erhöht die Unsicherheit des Rekonstruktionsprozesses, was sich auf dessen Stabilität auswirken kann.

Zur Lösung solcher "schlecht gestellten" Probleme schlug Tikhonov eine Regularisierungsmethode vor, um die Lösung zu stabilisieren, indem eine nicht negative Funktion einbezogen wird, die vorherige Informationen über die Lösung einbettet.

Die gebräuchlichste Form der Vorinformation beinhaltet die Annahme, dass die Eingabe-Ausgabe-Zuordnungsfunktion glatt ist - dh ähnliche Eingaben erzeugen ähnliche Ausgaben.

$\lambda$ $f$ $\lambda$ $\infty$ $\infty$

$\lambda$

Einige Beispiele für solche regulierten Kostenfunktionen sind:

Lineare Regression:

$J(\theta) = \frac 1m \sum_{i=1}^m [ h_\theta(x^i) - y^i]^2 + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2$

Logistische Regression:

$J(\theta) = \frac 1m \sum_{i=1}^m [ -y^i log(h_\theta(x^i)) - (1-y^i)log(1 - h_\theta(x^i))] + \frac \lambda{2m} \sum_{j=1}^n \theta_j^2$

$\theta$ $x$ $h_\theta(x)$ $y$

$L_2$

Der Nettoeffekt der Regularisierung besteht darin, die Komplexität des Modells zu verringern, wodurch die Überanpassung verringert wird. Andere Ansätze zur Regularisierung (in den obigen Beispielen nicht aufgeführt) umfassen Änderungen an Strukturmodellen wie Regressions- / Klassifizierungsbäumen, verstärkten Bäumen usw., indem Knoten entfernt werden, um einfachere Bäume zu erstellen. In jüngerer Zeit wurde dies beim sogenannten "tiefen Lernen" angewendet, indem Verbindungen zwischen Neuronen in einem neuronalen Netzwerk unterbrochen wurden.

Eine spezifische Antwort auf Q3 ist, dass einige Ensembling-Methoden wie Random Forest (oder ähnliche Abstimmungsschemata) aufgrund ihrer inhärenten Methode eine Regularisierung erreichen, dh Abstimmung und Auswahl der Antwort aus einer Sammlung nicht regularisierter Bäume. Auch wenn die einzelnen Bäume zu stark angepasst sind, verhindert der Prozess der "Mittelung" ihres Ergebnisses, dass das Ensemble zu stark an das Trainingsset angepasst wird.

BEARBEITEN:

Das Konzept der Regelmäßigkeit gehört zur axiomatischen Mengenlehre. Sie können in diesem Artikel auf Hinweise verweisen - de.wikipedia.org/wiki/Axiom_of_regularity und dieses Thema genauer untersuchen, wenn Sie an den Details interessiert sind.

Zur Regularisierung für neuronale Netze: Wenn Sie die Gewichte anpassen, während Sie den Backpropagation-Algorithmus ausführen, wird der Regularisierungsterm auf dieselbe Weise wie in den Beispielen für die lineare und logistische Regression zur Kostenfunktion hinzugefügt. Die Hinzufügung des Regularisierungsterms verhindert also, dass die Rückübertragung die globalen Minima erreicht.

Der Artikel, der die Batch-Normalisierung für neuronale Netze beschreibt, lautet: - Batch-Normalisierung: Beschleunigung des Deep Network-Trainings durch Reduzierung der internen Covariate Shift, Ioffe, Szegedy, 2015. Es ist bekannt, dass die Backpropagation zum Trainieren eines neuronalen Netzwerks besser funktioniert, wenn die Eingabevariablen normalisiert werden. In diesem Artikel haben die Autoren jede in Stochastic Gradient Descent verwendete Mini-Charge normalisiert, um das Problem des "Verschwindens von Gradienten" beim Trainieren vieler Schichten eines neuronalen Netzwerks zu vermeiden. Der in ihrem Artikel beschriebene Algorithmus behandelt den Mittelwert und die Varianz, die in jeder Charge für jede Aktivierungsschicht berechnet wurden, als einen weiteren Parametersatz, der in der Mini-Batch-SGD (zusätzlich zu den NN-Gewichten) optimiert wurde. Die Aktivierungen werden dann unter Verwendung des gesamten Trainingssatzes normalisiert. Ausführliche Informationen zu diesem Algorithmus finden Sie in ihrem Artikel. Mit dieser Methode konnten sie die Verwendung von Aussetzern für die Regularisierung vermeiden und behaupten daher, dass dies eine andere Art der Regularisierung ist.

— Sandeep S. Sandhu
quelle

danke für die tolle antwort. Können Sie mathematisch etwas erklären, wie Methoden wie die Normalisierung zur Regularisierung führen? In einem Vortrag von Goodfellow sagte er, dass alles, was differenzierbar ist, als Regularisierer für ein neuronales Netz fungieren kann. Wissen Sie auch, was Regelmäßigkeiten sind? Bedeuten sie nur Muster oder steckt etwas Mathe dahinter? Danke noch einmal.

— Rafael

Danke für die Antwort. Ich kann mich nicht an das Gespräch erinnern. In neuronalen Netzen fügen wir Ebenen wie die Batch-Normalisierung hinzu. Ich wollte wissen, wie sie zur Regularisierung beitragen.

— Rafael

Bearbeitet, um Ihren Kommentar zu beantworten und die Antworten aus den vorherigen Kommentaren hinzuzufügen.

— Sandeep S. Sandhu

3

Frage 1

Ich kenne keine kanonische Definition, und Ihre Fragen legen nahe, dass dieser Begriff mit unterschiedlichen Bedeutungen verwendet wird. Beginnen wir mit einfachen Beispielen (die Frage 2 beantworten).

Frage 2

Die Gratregression kann ein guter Ausgangspunkt sein. Es ist eine Regularisierungsmethode , die das durch eine singuläre Matrix aufgeworfene Problem umgeht .

Der in Gradientenverstärkungsmethoden (pro Beispiel) definierte "Regularisierungsparameter" soll hier jedoch eine geringe Komplexität für das Modell sicherstellen .

Frage 3

Normalisierung als Regularisierung hat eine andere Bedeutung (und diese Terminologie ist ziemlich irreführend). Es macht ein komplexes Problem "vom Standpunkt der Gradientenabnahme" zu etwas Einfacherem. Obwohl es nicht erforderlich ist, ein neuronales Netzwerk zu kalibrieren, hilft es wirklich bei der Kalibrierung. (Beachten Sie jedoch, dass eine Normalisierung nicht erforderlich wäre, wenn wir das globale Extrema willkürlicher Funktionen finden könnten.)

Frage 4

Regularisierung (um die Komplexität eines Modells zu reduzieren) wird verwendet, um Überanpassung zu reduzieren. Je weniger komplex ein Modell ist, desto unwahrscheinlicher ist eine Überanpassung.

Beiseite

S. Watanabe verwendet diese Terminologie in seiner Forschung konsequent.

— RUser4512
quelle