Vermeiden Sie eine Überanpassung bei der Regression: Alternativen zur Regularisierung


19

Regularisierung in der Regression (linear, logistisch ...) ist die beliebteste Methode, um Überanpassung zu reduzieren.

Gibt es gute Alternativen zur Regularisierung, insbesondere für große Datenmengen (Millionen von Beobachtungen und Millionen von Merkmalen), wenn das Ziel Vorhersagegenauigkeit ist (keine Erklärung)?


3
"Große Datensätze" können viele Beobachtungen, viele Variablen oder beides bedeuten, und die Antwort kann von der Anzahl der Beobachtungen und Variablen abhängen.
Pere

Warum nicht Norm Regularisierung verwenden? Für neuronale Netze gibt es
dropout

4
Der Vorteil der Regularisierung besteht darin, dass sie rechenintensiv ist. Ensemble-Methoden wie Bagging und Boosten (usw.) in Kombination mit Kreuzvalidierungsmethoden für die Modelldiagnose sind eine gute Alternative, werden jedoch eine viel kostspieligere Lösung sein.
Digio

1
Dies könnte von Interesse sein: stats.stackexchange.com/a/161592/40604
Dan

1
Zum Kommentar von Digio hinzufügen: Regularisierung ist billig im Vergleich zu Bagging / Boosten, aber immer noch teuer im Vergleich zu der Alternative "keine Regularisierung" (siehe z. B. diesen Beitrag von Ben Recht darüber, wie Regularisierung tiefes Lernen schwer macht ). Wenn Sie eine große Anzahl von Proben haben, kann keine Regularisierung bei weitem günstiger funktionieren. Das Modell kann immer noch gut verallgemeinern wie @ hxd1001 weist darauf hin )
Berk U.

Antworten:


11

Zwei wichtige Punkte, die nicht direkt mit Ihrer Frage zusammenhängen:

  • Erstens ist auch das Ziel Genauigkeit statt Interpretation. In vielen Fällen ist dennoch eine Regularisierung erforderlich, da hierdurch die "hohe Genauigkeit" des realen Test- / Produktionsdatensatzes sichergestellt wird und nicht die Daten, die für die Modellierung verwendet werden.

  • Zweitens ist bei Milliarden Zeilen und Millionen Spalten möglicherweise keine Regularisierung erforderlich. Dies liegt daran, dass die Daten sehr umfangreich sind und viele Rechenmodelle nur über eine begrenzte Leistung verfügen, dh dass eine Überanpassung nahezu unmöglich ist. Aus diesem Grund hat ein tiefes neuronales Netzwerk Milliarden von Parametern.


Nun zu Ihrer Frage. Wie von Ben und Andrey erwähnt, gibt es einige Alternativen zur Regularisierung. Ich möchte weitere Beispiele hinzufügen.

  • Verwenden Sie ein einfacheres Modell (Reduzieren Sie beispielsweise die Anzahl der verborgenen Einheiten im neuronalen Netzwerk. Verwenden Sie in SVM einen Polynomkern niedrigerer Ordnung. Reduzieren Sie die Anzahl der Gaußschen in einer Mischung aus Gaußschen usw.).

  • Stoppen Sie früh in der Optimierung. (Reduzieren Sie beispielsweise die Epoche beim Training des neuronalen Netzwerks und die Anzahl der Iterationen bei der Optimierung (CG, BFGS usw.).

  • Durchschnitt für viele Modelle (z. B. zufällige Gesamtstruktur usw.)


Vielen Dank. Die zweite Option (vorzeitig beenden) ist das, was wir derzeit mit SGD versuchen. Es funktioniert ziemlich gut Wir wollen es bald mit Regularisierung vergleichen. Kennen Sie einen Artikel, in dem diese Methode erwähnt wird?
Benoit Sanchez

1
Es gibt einen Hinweis auf eine geometrische Beziehung zwischen frühem Anhalten mit Gefälle und Regularisierung. Zum Beispiel fragt die Ridge-Regression in ihrer ursprünglichen Form nach den Parametern, die die Verlustfunktion minimieren, die in einer festen Ellipse mit Mittelpunkt am Ursprung liegt, wobei die Größe der Ellipse eine Funktion der Regularisierungsstärke ist. Die Gratparameter liegen auf der Oberfläche der Ellipse, wenn sie sich von der nicht regulierten Lösung unterscheiden. Wenn Sie einen Aufstieg beginnen und dann früh anhalten, befinden Sie sich an der Grenze einer dieser Ellipsen ...
Matthew Drury,

Da Sie den Gefällen gefolgt sind, sind Sie dem Pfad zum wahren Minimum gefolgt, sodass Sie die meiste Zeit ungefähr um die Gratlösung herum landen werden. Ich bin mir nicht sicher, wie rigoros Sie diesen Gedankengang machen können, aber es kann eine Beziehung geben.
Matthew Drury

@BenoitSanchez Dieses Papier könnte relevant sein. Die Autoren befassen sich mit einem anderen Problem (Überanpassung bei der Eigenvektorberechnung), aber die Strategie zur Behandlung der Überanpassung ist dieselbe (dh implizite Regularisierung durch Reduzierung der Berechnung). Die Strategie besteht darin, ein billigeres Problem zu lösen, das eine ungefähre Lösung liefert (was meiner Meinung nach das gleiche ist, als würde man bei der Optimierung früh aufhören).
Berk U.

@BenoitSanchez Ich empfehle das. Lorenzos Vorträge sind auf youtube verfügbar, aber diese Seite enthält auch Links zu einigen Artikeln mit.edu/~9.520/fall17/Classes/early_stopping.html
David Kozak

14

Zwei Alternativen zur Regularisierung:

  1. Haben Sie viele, viele Beobachtungen
  2. Verwenden Sie ein einfacheres Modell

Geoff Hinton (Miterfinder von Back Propogation) erzählte einmal eine Geschichte von Ingenieuren, in der er (stark umschrieben) sagte: "Geoff, wir brauchen keine Aussetzer in unseren tiefen Netzen, weil wir so viele Daten haben." Und seine Antwort war : „Nun, dann sollten Sie noch tiefe Netze bauen, bis Sie sind Überanpassung, und verwenden Sie dann Aussetzer.“ Abgesehen von guten Ratschlägen können Sie die Regularisierung anscheinend auch bei tiefen Netzen vermeiden, solange genügend Daten vorhanden sind.

Bei einer festgelegten Anzahl von Beobachtungen können Sie sich auch für ein einfacheres Modell entscheiden. Wahrscheinlich benötigen Sie keine Regularisierung, um einen Achsenabschnitt, eine Steigung und eine Fehlervarianz in einer einfachen linearen Regression abzuschätzen.


3

Einige zusätzliche Möglichkeiten, um eine Überanpassung zu vermeiden

  • Dimensionsreduzierung

    ml<<m

  • Merkmalsauswahl (auch Dimensionsreduzierung)

    Sie können eine Runde der Merkmalsauswahl durchführen (z. B. mit LASSO), um einen kleiner dimensionierten Merkmalsraum zu erhalten. So etwas wie die Merkmalsauswahl mit LASSO kann nützlich sein, wenn einige große, aber unbekannte Teilmengen von Merkmalen irrelevant sind.

  • Verwenden Sie Algorithmen, die weniger anfällig für Überanpassungen sind, z. B. zufällige Gesamtstrukturen. (Abhängig von den Einstellungen, der Anzahl der Features usw. sind diese möglicherweise rechenintensiver als gewöhnliche kleinste Quadrate.)

    Einige der anderen Antworten haben auch die Vorteile von Boosting- und Bagging-Techniken / -Algorithmen erwähnt.

  • Bayesianische Methoden

    Hinzufügen eines Priores zum Koeffizientenvektor und Reduzieren der Überanpassung. Dies hängt konzeptionell mit der Regularisierung zusammen: z. Die Kammregression ist ein Sonderfall der Maximum-a-posteriori-Schätzung.


2

Wenn Sie ein Modell mit einem Löser verwenden, in dem Sie die Anzahl der Iterationen / Epochen definieren können, können Sie Validierungsfehler nachverfolgen und frühzeitig stoppen: Stoppen Sie den Algorithmus, wenn der Validierungsfehler zuzunehmen beginnt.


1
Bei dieser Frage geht es eindeutig um Regressionsmodelle (lineare, logistische).
Matthew Drury

2
Technisch gesehen sind lineare und logistische Regression sehr einfache neuronale Netze.
Andrey Lukyanenko

2
Ich glaube nicht, dass dies meine Überzeugung ändert, dass dies die gestellte Frage nicht beantwortet. Wenn Sie es überarbeitet haben, um zu sagen, "wenn Sie die Regression mit irgendeiner Form von Gefälle anpassen und frühes Stoppen anwenden", wäre das besser.
Matthew Drury

Sogar sklearn hat eine Reihe von Modellen, die Parameter unterstützen, die die Anzahl der Iterationen begrenzen. Es könnte verwendet werden, um die Genauigkeit zu verfolgen. Aber ich nehme an, Sie haben Recht, dass der Wortlaut nicht genau richtig ist.
Andrey Lukyanenko

1

Zwei Gedanken:

  1. Ich unterstütze die von Ben Ogorek vorgeschlagene Strategie, ein einfacheres Modell zu verwenden .

    Ich arbeite an sehr spärlichen linearen Klassifikationsmodellen mit kleinen ganzzahligen Koeffizienten (z. B. max. 5 Variablen mit ganzzahligen Koeffizienten zwischen -5 und 5). Die Modelle sind in Bezug auf Genauigkeit und schwierigere Leistungsmetriken (z. B. Kalibrierung) gut verallgemeinerbar.

    n/d

  2. Wenn Sie zusätzliche Bedingungen für Ihr Modell angeben können (z. B. Monotoniebedingungen, Nebeninformationen), kann dies auch zur Verallgemeinerung beitragen, indem der Hypothesenraum reduziert wird (siehe z . B. dieses Dokument ).

    Dies muss mit Sorgfalt geschehen (z. B. möchten Sie Ihr Modell wahrscheinlich ohne Einschränkungen mit einer Grundlinie vergleichen und Ihren Trainingsprozess so gestalten, dass sichergestellt ist, dass Sie keine Einschränkungen in Bezug auf die Auswahl von Kirschen haben).

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.