Ich hoffe, die folgenden Auszüge geben einen Einblick in meine Frage. Diese stammen von http://neuralnetworksanddeeplearning.com/chap3.html
Das Lernen verlangsamt sich dann allmählich. Schließlich hört die Klassifizierungsgenauigkeit gegen Epoche 280 so gut wie auf, sich zu verbessern. In späteren Epochen treten lediglich kleine stochastische Schwankungen in der Nähe des Genauigkeitswerts in Epoche 280 auf. Vergleichen Sie dies mit dem früheren Diagramm, in dem die mit den Trainingsdaten verbundenen Kosten weiterhin gleichmäßig sinken. Wenn wir uns nur diese Kosten ansehen, scheint es, dass unser Modell immer noch "besser" wird. Die Ergebnisse der Testgenauigkeit zeigen jedoch, dass die Verbesserung eine Illusion ist. Genau wie das Modell, das Fermi nicht mochte, verallgemeinert sich das, was unser Netzwerk nach Epoche 280 lernt, nicht mehr auf die Testdaten. Und so ist es nicht nützlich zu lernen. Wir sagen, dass das Netzwerk über die Epoche 280 hinaus überpasst oder übertrainiert ist.
Wir trainieren ein neuronales Netzwerk und die Kosten (für Trainingsdaten) sinken bis zur Epoche 400, aber die Klassifizierungsgenauigkeit wird nach der Epoche 280 statisch (abgesehen von einigen stochastischen Schwankungen), sodass wir zu dem Schluss kommen, dass das Modell für die Trainingsdaten nach der Epoche 280 überpasst.
Wir können sehen, dass sich die Kosten für die Testdaten bis etwa zur 15. Epoche verbessern, aber danach beginnen sie sich tatsächlich zu verschlechtern, obwohl die Kosten für die Trainingsdaten weiter steigen. Dies ist ein weiteres Zeichen dafür, dass unser Modell überpasst. Es ist jedoch ein Rätsel, ob wir Epoche 15 oder Epoche 280 als den Punkt betrachten sollten, an dem Überanpassung das Lernen dominiert. Aus praktischer Sicht geht es uns wirklich darum, die Klassifizierungsgenauigkeit der Testdaten zu verbessern, während die Kosten für die Testdaten nur ein Indikator für die Klassifizierungsgenauigkeit sind. Daher ist es am sinnvollsten, die Epoche 280 als den Punkt zu betrachten, ab dem die Überanpassung das Lernen in unserem neuronalen Netzwerk dominiert.
Im Gegensatz zur Klassifizierungsgenauigkeit von Testdaten im Vergleich zu früheren Schulungskosten setzen wir jetzt die Kosten für Testdaten gegen die Schulungskosten.
Anschließend erklärt das Buch, warum 280 die richtige Epoche ist, in der die Überanpassung begonnen hat. Damit habe ich ein Problem. Ich kann meinen Kopf nicht darum wickeln.
Wir fordern das Modell auf, die Kosten zu minimieren, und daher sind die Kosten die Metrik, die es als Maß für seine eigene Stärke zur korrekten Klassifizierung verwendet. Wenn wir 280 als die richtige Epoche betrachten, in der die Überanpassung begonnen hat, haben wir nicht in gewisser Weise ein voreingenommenes Modell erstellt, das zwar einen besseren Klassifikator für die jeweiligen Testdaten darstellt, aber dennoch Entscheidungen mit geringem Vertrauen trifft und daher anfälliger für Abweichungen ist aus den auf den Testdaten gezeigten Ergebnissen?