Erkennen Sie menschliche Sprache in Echtzeit-Audio auf Mobiltelefonen

Ich möchte eine Android-App entwickeln. Als Teil der Funktionalität würde die App erfordern, 3-5 Sekunden Audio zufällig abzutasten und es als menschlich sprechend zu klassifizieren oder nicht. Ich verstehe, dass dieses Konzept als Sprachaktivitätserkennung bezeichnet wird.

Was wäre der beste Weg, um dies auf einem Mobiltelefon zu implementieren. Ich habe ein Basissystem mit energiebasierten Funktionen und Schwellenwerten entwickelt. Ich hoffe, etwas zu finden, das weniger anfällig für Rauschen ist, wahrscheinlich mithilfe von Funktionen wie MFCC oder Formanten? Ich habe eine Reihe von Papieren durchgesehen, aber für die meisten musste ich Daten sammeln und Modelle trainieren. Gibt es eine Bibliothek oder ein Framework, das ich verwenden könnte und das in Echtzeit funktioniert?

audio speech real-time

— Dony George
quelle

Ich glaube, dass speex unter http://www.speex.org/ Open Source Code VAD enthält. Versuchen Sie zu sehen, ob Sie es sehen können, und erhalten Sie einige Implementierungsideen, indem Sie deren Lizenz einhalten.

— VladP
quelle