Der beste Ansatz ist, so viele Daten wie möglich zu sammeln. Beginnen Sie dann mit dem Projekt und erstellen Sie ein Datenmodell.
Jetzt können Sie Ihr Modell bewerten, um festzustellen, ob es eine hohe Vorspannung oder eine hohe Varianz aufweist.
Hohe Varianz : In dieser Situation werden Sie feststellen, dass der Kreuzvalidierungsfehler nach der Konvergenz höher ist als der Trainingsfehler. Es gibt eine erhebliche Lücke, wenn Sie dieselbe gegen die Trainingsdatengröße zeichnen.
Hohe Verzerrung : In dieser Situation ist der Kreuzvalidierungsfehler geringfügig höher als der Trainingsfehler, der selbst hoch ist, wenn er gegen die Trainingsdatengröße aufgetragen wird. Durch das Plotten gegen die Trainingsdatengröße können Sie Teilmengen Ihrer Trainingsdaten eingeben und die Teilmengengröße weiter erhöhen und Plotfehler.
Wenn Sie feststellen, dass Ihr Modell eine hohe Varianz (Überanpassung) aufweist, hilft das Hinzufügen weiterer Daten normalerweise im Gegensatz zum Modell mit hoher Abweichung (Unteranpassung), bei dem das Hinzufügen neuer Trainingsdaten nicht hilft.
Außerdem müssen Sie pro Klasse versuchen, die gleiche Anzahl von Bildern zu erhalten, da sonst Datensätze verzerrt werden können (mehr von einer Art).
Wenn Sie TensorFlow verwenden , empfehlen wir Ihnen , mehr über den INCEPTION Image Classifier von GOOGLE zu erfahren . Es ist bereits ein ausgebildeter Klassifikator in der Bilddatenbank von Google und Sie können ihn für Ihre Bilder verwenden. Auf diese Weise sinken die Anforderungen an die Anzahl der Bilder drastisch.