Ich denke, das Wichtigste ist, dass die Stichproben in Ihren Daten gut verteilt sind, denn egal wie viele Daten Sie haben, mehr Daten wären immer besser. Wenn Sie versuchen, zwischen Katzen- und Hundebildern zu unterscheiden, können Sie keine gute Leistung Ihres Modells erwarten, wenn Sie es nur mit Katzenbildern füttern.
Wie in der Antwort von Kevin L vorgeschlagen , ist es sinnvoll, den Unterschied zwischen Trainings- und Testfehlern zu berücksichtigen. Wenn Ihre Testdaten unabhängig von Ihren Trainingsdaten sind, gibt dies einen Hinweis darauf, wie gut sich Ihr Modell auf die nicht verfügbaren Daten verallgemeinert. Ich möchte noch hinzufügen, dass ein großer Unterschied zwischen Trainings- und Testfehlern nur darauf hinweist, dass sich Ihr Modell nicht gut verallgemeinert, dh Sie sind überfordert mit den Trainingsdaten. Mehr Daten werden wahrscheinlich helfen, da das Netzwerk jetzt auch die zusätzlichen Datenpunkte modellieren muss und daher nicht mehr so viel überanpassen kann. Es kann jedoch sinnvoller sein, Ihr Modell so zu ändern, dass es besser verallgemeinert wird. Dieses Kapitel aus einem ausgezeichneten Buch erklärt, welche Arten von Regularisierung existieren und wie sie in Netzwerken angewendet werden können, um eine bessere Verallgemeinerung zu erreichen.
Wenn Sie nach einem quantitativeren Maß suchen, habe ich diese Frage kürzlich bei quora gefunden. Es handelt sich um einen Auto-Encoder, aber ich denke, er sollte auch auf Ihr Beispiel anwendbar sein. Ich habe keine Ahnung, ob dies korrekt ist (bitte lassen Sie es mich wissen), aber ich würde argumentieren, dass zum Beispiel für MNIST versucht wird, Bilder mit maximal 28 * 28 * 8 * 10 000 = 62 720 000 zu verkleinern Bitentropie für zehn Klassen in One-Hot-Codierung mit 10 * 10 * 10 000 = 1 000 000 Bitentropie. Da wir nur an den 1 000 000 Bit Entropie am Ausgang interessiert sind, können wir sagen, dass bei 1 000 000 Parametern jeder Parameter ein einzelnes Bit darstellt, das 1e-4 Bit pro Abtastung ist. Dies bedeutet, dass Sie mehr Daten benötigen würden. Oder Sie haben zu viele Parameter, weil Sie z. B. bei 100 Parametern 10 000 Bits pro Parameter und damit 1 Bit pro Abtastung haben. Jedoch,