Wie unterscheidet sich die Geräuschreduzierung für die Spracherkennung von der Geräuschreduzierung, die die Sprache für den Menschen „verständlicher“ machen soll?

Diese Frage interessiert mich schon seit einiger Zeit, vor allem, weil ich selbst an der Rauschunterdrückung für ein vorhandenes Spracherkennungssystem arbeite.

Die meisten Artikel über Geräuschreduzierungstechniken scheinen sich darauf zu konzentrieren, wie Sprache für Menschen verständlicher gemacht oder vage Begriffe wie "Sprachqualität" verbessert werden können.

Ich bin sicher, dass Sie anhand dieser Kriterien Filter identifizieren können, mit denen verrauschte Sprachsignale für Menschen leichter zu hören sind. Ich bin mir jedoch nicht sicher, ob diese Kriterien einfach angepasst werden können, wenn versucht wird, Sprachsignale auszuwerten, die entrauscht wurden, um die Genauigkeit des Spracherkennungssystems zu verbessern.

Ich finde keine Papiere, die diesen Unterschied diskutieren. Korrelieren Sprachverständlichkeit und Sprachqualität mit der Genauigkeit von Spracherkennungssystemen? Gibt es objektive Maßnahmen, mit denen bewertet werden kann, wie "gut" ein entrauschtes Sprachsignal für ein Spracherkennungssystem ist, beispielsweise wenn auch die ursprüngliche saubere Sprache gegeben wird? Oder ist der einzige Weg herauszufinden, wie gut Ihre Rauschunterdrückungstechnik ist, das Spracherkennungssystem auf die entrauschten Daten zu trainieren und die Genauigkeit zu überprüfen?

Ich würde mich freuen, wenn mich jemand in die richtige Richtung weisen oder vielleicht einige Papiere geben könnte, die dies diskutieren. Danke im Voraus!

— Marlonfl
quelle

Ich finde keine Papiere, die diesen Unterschied diskutieren.

Es gibt ganze Bücher zu diesem Thema:

Robuste automatische Spracherkennung 1. Auflage

Korrelieren Sprachverständlichkeit und Sprachqualität mit der Genauigkeit von Spracherkennungssystemen?

Normalerweise nein, normalerweise verfälscht die Rauschunterdrückung Merkmale auf unvorhersehbare Weise und verringert die Spracherkennungsgenauigkeit.

Gibt es objektive Maßnahmen, mit denen bewertet werden kann, wie "gut" ein entrauschtes Sprachsignal für ein Spracherkennungssystem ist, beispielsweise wenn auch die ursprüngliche saubere Sprache gegeben wird? Oder ist der einzige Weg herauszufinden, wie gut Ihre Rauschunterdrückungstechnik ist, das Spracherkennungssystem auf die entrauschten Daten zu trainieren und die Genauigkeit zu überprüfen?

Zweite. Darüber hinaus werden durch funktionsbasierte Rauschunterdrückung wichtige Informationen aus dem Spektrum entfernt, sodass Sie die Genauigkeit des sauberen Systems nicht reparieren können. Aus diesem Grund besteht ein moderner Ansatz darin, ein Multi-Style-Training für verrauschte Daten durchzuführen, anstatt zuvor einen Rauschunterdrückungsalgorithmus zu verwenden. Es endet mit einer genaueren Erkennung.

— Nikolay Shmyrev
quelle

Danke für deine Antworten. Ich habe wohl nicht nach den richtigen Papieren gesucht. Ich werde mir das Buch ansehen.

— Marlonfl

Ok, wenn Sie Papiere möchten, können Sie die Ergebnisse der CHIME-4-Herausforderung überprüfen, hauptsächlich den Stand der Technik bei robuster ASR.

— Nikolay Shmyrev