Diese Frage interessiert mich schon seit einiger Zeit, vor allem, weil ich selbst an der Rauschunterdrückung für ein vorhandenes Spracherkennungssystem arbeite.
Die meisten Artikel über Geräuschreduzierungstechniken scheinen sich darauf zu konzentrieren, wie Sprache für Menschen verständlicher gemacht oder vage Begriffe wie "Sprachqualität" verbessert werden können.
Ich bin sicher, dass Sie anhand dieser Kriterien Filter identifizieren können, mit denen verrauschte Sprachsignale für Menschen leichter zu hören sind. Ich bin mir jedoch nicht sicher, ob diese Kriterien einfach angepasst werden können, wenn versucht wird, Sprachsignale auszuwerten, die entrauscht wurden, um die Genauigkeit des Spracherkennungssystems zu verbessern.
Ich finde keine Papiere, die diesen Unterschied diskutieren. Korrelieren Sprachverständlichkeit und Sprachqualität mit der Genauigkeit von Spracherkennungssystemen? Gibt es objektive Maßnahmen, mit denen bewertet werden kann, wie "gut" ein entrauschtes Sprachsignal für ein Spracherkennungssystem ist, beispielsweise wenn auch die ursprüngliche saubere Sprache gegeben wird? Oder ist der einzige Weg herauszufinden, wie gut Ihre Rauschunterdrückungstechnik ist, das Spracherkennungssystem auf die entrauschten Daten zu trainieren und die Genauigkeit zu überprüfen?
Ich würde mich freuen, wenn mich jemand in die richtige Richtung weisen oder vielleicht einige Papiere geben könnte, die dies diskutieren. Danke im Voraus!