Ich trainiere ein neuronales Netzwerk für die Audioklassifizierung.
Ich habe es auf dem UrbanSound8K-Datensatz (Modell 1) trainiert und wollte dann bewerten, wie unterschiedliche Pegel des zusätzlichen Rauschens zu den Eingaben die Vorhersagegenauigkeit beeinflussen. Basisgenauigkeit Modell1 = 65%
Wie erwartet führten höhere Geräuschpegel zu einer geringeren Genauigkeit.
Dann entschied ich mich für eine Datenerweiterung mit Rauschen (Modell 2) . Also nahm ich den Datensatz und duplizierte ihn mit denselben Dateien, fügte ihnen jedoch rosa Rauschen (+0 dB SNR) hinzu.
Wie erwartet (von mir) erhöhte sich die Gesamtgenauigkeit (allerdings um 0,5%) und das Netzwerk wurde robuster gegenüber Rauschverfälschungen der Eingänge.
Jedoch! Eine Sache, die ich nicht erwartet hatte, war, dass das Netzwerk jetzt seine Genauigkeit reduziert hat, wenn nur Eingaben ohne Rauschen (Validierungseingaben) vorhergesagt wurden. Irgendwie hat es sich an die sauberen Eingänge angepasst, wodurch die Vorhersagegenauigkeit dieser Audios verringert wurde.
In Zahlen prognostiziert Model2 eine Genauigkeit von 69% für verrauschte Eingaben (nicht unbedingt das gleiche Rauschen, mit dem trainiert wurde) und eine Genauigkeit von 47% für saubere Eingaben.
Gibt es eine Erklärung oder Intuition für dieses Ergebnis?
Ich hatte erwartet, dass das Netzwerk, das jetzt immer vielfältigere Trainingsdaten hat, aussagekräftigere Funktionen lernen würde. Ich denke, es ist schwieriger, sich an die verrauschten Eingänge anzupassen, aber ich verstehe immer noch nicht, warum es hauptsächlich an die sauberen Eingänge angepasst wurde.
--------------------------------------------- BEARBEITEN 1 --------------------------------------------- ---------------
Eine weitere Information, die hilfreich sein kann:
Selbst wenn Model2 an verrauschten Eingängen mit sehr wenig Rauschen ausgewertet wird, ist das Netzwerk weitaus leistungsfähiger als nur an sauberen Eingängen (die den Eingängen mit wenig Rauschen für unsere Ohren sehr ähnlich sind).