In der folgenden Grafik
- x-Achse => Datensatzgröße
- y-Achse => Kreuzvalidierungsergebnis
Die rote Linie steht für Trainingsdaten
Die grüne Linie dient zum Testen von Daten
In einem Tutorial, auf das ich mich beziehe, sagt der Autor, dass der Punkt, an dem sich die rote und die grüne Linie überlappen, bedeutet:
Es ist unwahrscheinlich, dass das Sammeln weiterer Daten die Generalisierungsleistung erhöht, und wir befinden uns in einer Region, in der die Daten wahrscheinlich nicht ausreichend sind. Daher ist es sinnvoll, ein Modell mit mehr Kapazität auszuprobieren
Ich kann die Bedeutung des kühnen Satzes nicht ganz verstehen und wie es passiert.
Schätzen Sie jede Hilfe.