Ich extrahiere Audio-Clips aus einer Videodatei zur Spracherkennung. Diese Videos stammen von Handys / anderen handgefertigten Geräten und enthalten daher viel Rauschen. Ich möchte das Hintergrundgeräusch des Audios reduzieren, damit die Sprache, die ich an meine Spracherkennungs-Engine weitergebe, klar ist. Ich benutze ffmpeg, um all diese Dinge zu erledigen, aber ich stecke in der Phase der Rauschunterdrückung fest.
Bisher habe ich folgende Filter ausprobiert:
ffmpeg-20140324-git-63dbba6-win64-static\bin>ffmpeg -i i nput.wav -filter_complex "highpass=f=400,lowpass=f=1800" out2.wav
ffmpeg -i i nput.wav -af "equalizer=f=1000:width_type=h:width=900:g=-10" output.wav
ffmpeg -i i nput.wav -af "bandreject=f=1200:width_type=h:width=900:g=-10" output.wav
Die Ergebnisse sind jedoch sehr enttäuschend. Meine Überlegung war, dass ich alle anderen Frequenzen herausfiltern kann, um Hintergrundgeräusche zu unterdrücken, da Sprache unter 300-3000 Hz liegt. Was vermisse ich?
Auch ich las über weiner Filter , die für die Spracherweiterungen verwendet werden könnte und fand dies aber ich bin nicht sicher , wie es zu benutzen.