Story:
Meine Oma geht, klettert aber nicht. Einige Omas tun. Eine Oma war berühmt dafür , den Kilimandscharo zu besteigen .
Dieser schlafende Vulkan ist groß. Es ist 16.000 Fuß über seiner Basis. (Hassen Sie nicht meine imperialen Einheiten.) Manchmal sind auch Gletscher auf dem Gipfel.
Wenn Sie in einem Jahr klettern, in dem es keinen Gletscher gibt und Sie an den Gipfel gelangen, ist es derselbe Gipfel, als ob es einen Gletscher gäbe? Die Höhe ist anders. Der Weg, den Sie gehen müssen, ist anders. Was ist, wenn Sie nach oben gehen, wenn die Gletscherdicke größer ist? Ist das mehr eine Leistung? Ungefähr 35.000 Menschen versuchen jedes Jahr, es zu besteigen , aber nur ungefähr 16.000 schaffen es.
Anwendung:
So würde ich meiner Oma die Gewichtskontrolle (auch bekannt als Minimierung der Modellkomplexität) erklären:
Oma, dein Gehirn ist ein erstaunlicher Denker, ob du es weißt oder nicht. Wenn ich Sie frage, wie viele der 16.000, die glauben, die Spitze erreicht zu haben, dies tatsächlich getan haben, würden Sie "alle von ihnen" sagen.
Wenn ich Sensoren in die Schuhe aller 30.000 Kletterer stecke und die Höhe über dem Meeresspiegel messe, werden einige dieser Leute nicht so hoch wie andere und qualifizieren sich möglicherweise nicht. Wenn ich das mache, gehe ich zu einem konstanten Modell - ich sage, wenn die Höhe nicht gleich einem Perzentil der gemessenen Maximalhöhen ist, dann ist es nicht die Spitze. Einige Leute springen an der Spitze. Einige Leute überqueren einfach die Grenze und setzen sich.
Ich könnte dem Sensor Breiten- und Längengrade hinzufügen und einige Gleichungen höherer Ordnung anpassen, und vielleicht könnte ich eine bessere Anpassung erhalten und mehr Leute haben, vielleicht sogar genau 45% aller Leute, die es versuchen.
Nehmen wir also an, nächstes Jahr ist ein "großes Gletscherjahr" oder ein "kein Gletscherjahr", weil ein Vulkan die Albedo der Erde wirklich verändert . Wenn ich mein komplexes und anspruchsvolles Modell aus diesem Jahr nehme und es auf die Leute übertrage, die nächstes Jahr klettern, wird das Modell seltsame Ergebnisse haben. Vielleicht wird jeder "passen" oder sogar zu hoch sein, um zu passen. Vielleicht kommt überhaupt niemand vorbei und es wird angenommen, dass niemand den Aufstieg tatsächlich abgeschlossen hat. Insbesondere wenn das Modell komplex ist, wird es sich nicht gut verallgemeinern lassen. Es passt zwar genau zu den diesjährigen "Trainings" -Daten, aber wenn neue Daten eingehen, verhält es sich schlecht.
Diskussion:
Wenn Sie die Komplexität des Modells einschränken, können Sie in der Regel eine bessere Verallgemeinerung erzielen, ohne eine Überanpassung vorzunehmen. Wenn einfachere Modelle verwendet werden, die eher für Variationen in der realen Welt ausgelegt sind, werden tendenziell bessere Ergebnisse erzielt, wenn alle anderen gleich sind.
Jetzt haben Sie eine feste Netzwerktopologie. Sie sagen also: "Meine Parameteranzahl ist fest". Die Modellkomplexität kann nicht variieren. Unsinn. Messen Sie die Entropie in den Gewichten. Wenn die Entropie höher ist, bedeutet dies, dass einige Koeffizienten wesentlich informativer sind als andere. Wenn Sie eine sehr niedrige Entropie haben, bedeutet dies, dass die Koeffizienten im Allgemeinen einen ähnlichen Grad an "Informativität" aufweisen. Informativität ist nicht unbedingt eine gute Sache. In einer Demokratie möchten Sie, dass alle Menschen gleich sind, und Dinge wie George Orwell, die "gleicher sind als andere", sind ein Maß für das Versagen des Systems. Wenn Sie keinen guten Grund dafür haben, möchten Sie, dass die Gewichte einander ziemlich ähnlich sind.
Persönlich: Anstatt Voodoo oder Heuristik zu verwenden, bevorzuge ich Dinge wie "Informationskriterien", weil sie mir zuverlässige und konsistente Ergebnisse ermöglichen. AIC , AICc und BIC sind einige häufige und nützliche Ausgangspunkte. Die Analyse zu wiederholen, um die Stabilität der Lösung oder die Ergebnisse verschiedener Informationskriterien zu bestimmen, ist ein gängiger Ansatz. Man könnte versuchen, die Entropie in den Gewichten zu begrenzen.