Was mich dazu gebracht hat, das Problem der Überanpassung zu verstehen, war, mir vorzustellen, welches Überanpassungsmodell am besten geeignet ist. Im Grunde wäre es eine einfache Nachschlagetabelle.
Sie teilen dem Modell mit, welche Attribute die einzelnen Daten haben, und es merkt sich diese einfach und macht nichts mehr damit. Wenn Sie ihm Daten geben, die er zuvor gesehen hat, schlägt er sie nach und spuckt einfach wieder aus, was Sie ihm zuvor gesagt haben. Wenn Sie ihm Daten geben, die er zuvor noch nicht gesehen hat, ist das Ergebnis unvorhersehbar oder zufällig. Beim maschinellen Lernen geht es jedoch nicht darum, Ihnen zu sagen, was passiert ist, sondern darum, die Muster zu verstehen und anhand dieser Muster vorherzusagen, was vor sich geht.
Stellen Sie sich also einen Entscheidungsbaum vor. Wenn Sie Ihren Entscheidungsbaum immer weiter vergrößern, erhalten Sie schließlich einen Baum, in dem jeder Blattknoten auf genau einem Datenpunkt basiert. Sie haben soeben eine Backdoor-Methode zum Erstellen einer Nachschlagetabelle gefunden.
Um Ihre Ergebnisse zu verallgemeinern, um herauszufinden, was in Zukunft passieren könnte, müssen Sie ein Modell erstellen, das verallgemeinert, was in Ihrem Trainingssatz vor sich geht. Overfit-Modelle beschreiben die Daten, über die Sie bereits verfügen, hervorragend, aber deskriptive Modelle sind nicht unbedingt prädiktive Modelle.
Das No-Free-Lunch-Theorem besagt, dass kein Modell ein anderes Modell auf der Menge aller möglichen Instanzen übertreffen kann . Wenn Sie vorhersagen möchten, was in der Folge der Zahlen "2, 4, 16, 32" als Nächstes kommt, können Sie kein genaueres Modell erstellen als jedes andere, wenn Sie nicht davon ausgehen, dass ein zugrunde liegendes Muster vorliegt. Ein Modell, das überzogen ist, bewertet die Muster nicht wirklich - es modelliert einfach, was es weiß, dass es möglich ist, und gibt Ihnen die Beobachtungen. Sie erhalten Vorhersagekraft, wenn Sie davon ausgehen, dass eine bestimmte Funktion zugrunde liegt, und wenn Sie bestimmen können, um welche Funktion es sich handelt, können Sie das Ergebnis von Ereignissen vorhersagen. Aber wenn es wirklich kein Muster gibt, haben Sie kein Glück und alles, was Sie hoffen können, ist eine Nachschlagetabelle, die Ihnen sagt, was möglich ist.