Warum führt Entropie als Fehlermaß zu einer Überanpassung?

In diesem Beitrag zu KDnuggets, in dem der Beitrag von John Langford zitiert wird, heißt es, dass Entropie und gegenseitige Information, wenn sie als Fehlermaßnahmen verwendet werden, zu einer Überanpassung führen können. Könnten Sie näher darauf eingehen?

— Tim
quelle

Beachten Sie, dass im ursprünglichen Beitrag von Langford eine Diskussion beginnt, die mit Aleks 'Kommentar beginnt , wie diese Maßnahmen "spröde" sind (und zu einer Überanpassung führen können).

— Stephan Kolassa

@StephanKolassa Mir ist aufgefallen, aber ich wäre an einem ausführlicheren Kommentar dazu interessiert.

— Tim

Jede Fehlermaßnahme, die die Komplexität des Systems nicht beeinträchtigt, kann zu einer Überanpassung führen, z. B. Entropie.

Wenn Sie Ihre Trainingsdaten an ein Modell anpassen, das Sie gut auf neue Daten verallgemeinern möchten, wird dieser Trainingsschritt im Allgemeinen ausgeführt, indem ein Fehlermaß minimiert wird , das unter anderem von Ihren Parametern (einem Vektor, der davon abhängt abhängt umfasst alle Ihre Modellparameter, die während des Trainings angepasst werden sollen). $E (w)$ $w$

Wenn es bei Ihrer Fehlermaßnahme nur darum geht, Ihre Trainingsdaten immer besser anzupassen, können Sie feststellen, dass das Erstellen von Modellen mit einer großen Anzahl von Parametern (die zusätzlich einen beliebigen Wert annehmen können) gut ist, da Ihr Modell so flexibel ist, dass Ihre Trainingsdaten perfekt sein können gelernt. Auf der anderen Seite, wenn Ihre Trainingsdaten verrauscht sind (was normalerweise der Fall ist), werden Sie auf diese Weise auch das Geräusch Ihres Modells anpassen, und genau darum geht es bei der Überanpassung.

Es gibt Techniken, um dies zu vermeiden, die insgesamt als "Regularisierungstechniken" bezeichnet werden. Diese sind die häufigsten, die der Fehlerfunktion einen Regularisierungsterm hinzufügen, so dass jetzt wobei ist ein Fehler, der misst, wie gut Ihre Anpassung ist (z. B. Entropie), und eine Bestrafung für komplexe Modelle (größer für Modelle mit vielen Parametern oder großen Parameterwerten). $E (w) = E_D (w) + E_W (w)$ $E_D$ $E_W$

— Javi
quelle

Dies scheint die Frage nicht zu beantworten. John Langford erwähnt Entropie ausdrücklich als ein Maß, das zu einer Überanpassung führt, er erwähnt "kein Maß". Die Frage ist, was / ob die Entropie in Bezug auf die Überanpassung spezifisch ist.

— Tim

Die Regularisierung wird bei Validierungs- / Testsätzen im Allgemeinen nicht für alle Maßnahmen berücksichtigt. Es scheint, dass Langford insbesondere über Entropie und gegenseitige Information sprach.

— Carlo