Auf der Suche nach einer Antwort auf dieses Problem habe ich festgestellt, dass dieses Board diese Frage von Stack Overflow gekreuzt hat .
Ich suche nach einer Methode zur Bestimmung der Ähnlichkeit zwischen einem Audiosegment und einer menschlichen Stimme, die numerisch ausgedrückt wird.
Ich habe ziemlich viel gesucht, aber was ich bisher gefunden habe (siehe unten), passt nicht wirklich zu dem, was ich brauche:
Eine Methode besteht darin, Spracherkennungssoftware zu verwenden , um Wörter aus einem Audiosegment zu erhalten. Mit dieser Methode lässt sich jedoch nicht feststellen, wie "ähnlich" Audio der menschlichen Sprache ist. es kann oft sagen, ob das Audio Wörter enthält oder nicht, aber wenn es keine bestimmten Wörter gibt, kann es nicht sagen, ob das Audio solche Wörter enthält oder nicht.
Beispiele: CMU Sphinx , Dragonfly , SHoUTDie vielversprechendere Methode wird als Voice Activity Detection (VAD) bezeichnet. Dies hat jedoch tendenziell dieselben Probleme: Die Algorithmen / Programme, die VAD verwenden, geben in der Regel nur zurück, ob die Aktivitätsschwelle erreicht wurde oder nicht, und es gibt keinen "Ähnlichkeit" -Wert vor oder nach dieser Schwelle. Alternativ suchen viele nur nach Lautstärke, nicht nach Ähnlichkeit mit menschlicher Sprache.
Beispiele: Speex , Listener , FreeSWITCH
Irgendwelche Ideen?