Er sagt die "effektive Komplexität des Netzwerks". Er bezieht sich tatsächlich auf die Größe der Gewichte des Netzwerks. Dies kann im Hinblick auf das Prinzip der minimalen Beschreibungslänge verstanden werden . Aber bevor ich darauf eingehe, ist die Intuition, dass je größer die Gewichte, desto mehr verschiedene Arten von Funktionen in Ihr Netzwerk passen und somit die Freiheitsgrade (und die effektive Komplexität) höher sind.
In diesem Kapitel geht es um Regularisierung, eine Technik, mit der das Risiko einer Überanpassung effektiv verringert wird, indem die Gewichte so klein wie möglich gehalten werden. Allgemein,
p ( D | w ) = ∏np ( tn| xn, w ) = ∏nexp( β2[ tn- y(xn, w ) ]2) /ZD( β)
wZD( β)
p ( w ) = exp( - α | | w | |22) / ZW( α )
argmaxwp ( w | D )
p ( w | D ) = p ( D | w ) p ( w )
Zw
argMindestw∑nβ2[ tn- y( xn, w ) ]2+ α2∑ichw2ich
Im Allgemeinen haben Sie, dass die MAP-Schätzung äquivalent zu den folgenden ist,
wMA P= Argminw- l o g2P( D | w ) - l o g2( w )
Die rechte Seite des Ausdrucks kann als die Anzahl der Bits interpretiert werden, die zur Beschreibung Ihres Klassifikators erforderlich sind. Der erste Term gibt die Anzahl der Bits an, die erforderlich sind, um die Fehler zu codieren, die Ihr Netzwerk bei den Trainingsdaten macht. Die zweite Zahl gibt die Anzahl der Bits an, die zum Codieren der Gewichte erforderlich sind.
Die MAP-Schätzung entspricht somit der Auswahl einer möglichst kompakten Darstellung. Mit anderen Worten, Sie suchen nach dem Gewichtungssatz, der die Trainingsdaten so genau wie möglich berücksichtigt und der mit der geringsten Anzahl von Bits ausgedrückt werden kann.
Beachten Sie, dass dies eine andere Form des Bias / Varianz-Problems ist: Je größer die Gewichte, desto geringer der erste Term, da das Netzwerk die Trainingsdaten besser anpassen kann (Überanpassung). Gleichzeitig ist aber die Komplexität der Gewichte umso höher. Je kleiner die Gewichte sind, desto kleiner ist die Komplexität des Netzwerks, aber desto höher ist der Fehlerterm (Bias). Je höher die Anzahl der Bits, um die Fehler des Netzwerks zu codieren.
Hoffe, das gibt Ihnen eine gute Vorstellung davon, worauf er sich bezieht.
PS: Ein längeres Argument zur laufenden Diskussion hinzufügen Vielleicht verstehe ich dich falsch. Lassen Sie mich bitte versuchen, mich ein letztes Mal zu erklären.
Die Prioritäten für die Gewichtsmittel stellen die Annahme dar, die wir über die Funktion machen, die Sie anpassen möchten. Je größer der Prior (dh die Gewichte), desto breiter der Gauß'sche Wert, dh desto mehr mögliche Konfigurationen werden für das Netzwerk in Betracht gezogen.
Betrachten wir den Fall der Regression (wie in dem Artikel, auf den ich mich bezog). Ein geringer Generalisierungsfehler bedeutet, dass das Netzwerk unsichtbare Samples sehr nahe an den tatsächlichen Werten abbilden kann. Wenn Sie eine gerade Linie einpassen, genügt ein Polynom erster Ordnung (geringe Komplexität). Jetzt können Sie die Daten auch mit einem Polynom höherer Ordnung anpassen (Koeffizienten höherer Ordnung müssen sich von Null unterscheiden). Die Komplexität des Netzwerks ist höher, da Sie für eine komplexere Kurve Oszillationen zulassen. Wenn die Koeffizienten, die den Termen höherer Ordnung entsprechen, jedoch niedrig genug sind, kann das Netzwerk die Gerade sehr gut approximieren, was zu einer guten Verallgemeinerung führt.
Der springende Punkt bei MDL ist es also, Ihre Gewichte so klein wie möglich zu halten, solange der Generalisierungsfehler minimiert werden kann.
Abschließend zitiere ich Sie: "Ich finde das Argument, dass die Fähigkeit des Modells, andere Funktionen zu modellieren, mit zunehmender Überanpassung zunehmen wird, immer noch problematisch. Ich denke, dass das Gegenteil der Fall ist, da ein überanpassendes Modell nicht verallgemeinert werden kann, um auf neues Modell angewendet zu werden Information.". Ja, es kann ANDERE, komplexere Funktionen modellieren, aber es wird die vorliegende Funktion nicht richtig modellieren. In der Abbildung 5.12 im Buch nimmt der Fehler zuerst ab, wenn die Größe des Gewichts zunimmt (Verringerung der Verzerrung). Bis zu einem bestimmten Zeitpunkt, an dem es wieder zunimmt (Abnahme der Generalisierung, Überanpassung).