Es scheint widersprüchliche Ratschläge zu geben, wie mit dem Vergleichen von Zug- und Testfehlern umgegangen werden soll, insbesondere wenn zwischen beiden eine Lücke besteht. Es scheint zwei Denkschulen zu geben, die mir widersprüchlich erscheinen. Ich möchte verstehen, wie man die beiden miteinander in Einklang bringt (oder verstehen, was ich hier vermisse).
Gedanke Nr. 1: Eine Lücke zwischen der Leistung des Zuges und des Testsatzes allein bedeutet keine Überanpassung
Erstens (auch hier besprochen: Wie können Vergleiche von Trainings- und Testfehlern auf eine Überanpassung hinweisen? ) Kann die Vorstellung, dass ein Unterschied zwischen Zug und Testsatz allein keine Überanpassung anzeigen kann, nicht zutreffen. Dies stimmt mit meiner praktischen Erfahrung mit beispielsweise Ensemble-Tree-Methoden überein, bei denen die Lücke zwischen Zug- und Testfehlern auch nach einer Cross-Validation-basierten Hyper-Parameter-Abstimmung etwas groß bleiben kann. Aber (unabhängig vom Modelltyp), solange Ihr Überprüfungsfehler nicht zurückgeht, geht es Ihnen gut. Zumindest ist das das Denken.
Gedanke # 2: Wenn Sie eine Lücke zwischen Zug- und Testleistung sehen: Machen Sie Dinge, die Überanpassung bekämpfen würden
Dann gibt es jedoch Hinweise aus sehr guten Quellen, die darauf hindeuten, dass eine Lücke zwischen Zug- und Testfehler auf eine Überanpassung hindeutet. Hier ein Beispiel: Der Vortrag von Andrew Ng über "Nuts and Bolts of Deep Learning" (ein fantastischer Vortrag) https://www.youtube.com/watch?v=F1ka6a13S9I, in dem er gegen 48:00 Uhr ein Flussdiagramm zeichnet Das besagt: "Wenn Ihr Zug-Set-Fehler niedrig und Ihr Zug-Dev-Set-Fehler hoch ist, sollten Sie Regularisierung hinzufügen, mehr Daten abrufen oder die Modellarchitektur ändern." Dies sind alles Maßnahmen, die Sie möglicherweise zur Bekämpfung von Überanpassungen ergreifen.
Was mich zu ... bringt : Vermisse ich hier etwas? Handelt es sich um eine modellspezifische Faustregel (im Allgemeinen scheinen einfachere Modelle weniger Lücken zwischen Zug und Test zu haben)? Oder gibt es einfach zwei verschiedene Denkrichtungen?