Ich habe die Möglichkeit untersucht, Geräusche (zum Beispiel Tiergeräusche) mithilfe von Spektrogrammen zu klassifizieren. Die Idee ist, ein tiefes Faltungs-Neuronales Netz zu verwenden, um Segmente im Spektrogramm zu erkennen und eine (oder mehrere) Klassenbezeichnungen auszugeben. Dies ist keine neue Idee (siehe zum Beispiel die Klangklassifizierung von Walen oder die Erkennung von Musikstilen ).
Das Problem, mit dem ich konfrontiert bin, ist, dass ich Sounddateien unterschiedlicher Länge und daher Spektrogramme unterschiedlicher Größe habe. Bisher verwendet jeder Ansatz, den ich gesehen habe, ein Soundbeispiel mit fester Größe, aber das kann ich nicht, da meine Sounddatei möglicherweise 10 Sekunden oder 2 Minuten lang ist.
Zum Beispiel mit einem Vogelgeräusch am Anfang und einem Froschgeräusch am Ende (Ausgabe sollte "Vogel, Frosch" sein). Meine derzeitige Lösung wäre, dem neuronalen Netzwerk eine zeitliche Komponente hinzuzufügen (wodurch mehr ein wiederkehrendes neuronales Netzwerk entsteht), aber ich möchte es vorerst einfach halten. Irgendwelche Ideen, Links, Tutorials, ...?