Bibliothek zur Unterscheidung von Personen anhand ihrer Stimmfarbe

Angenommen, es sind 3 Personen im Raum. Jeder von ihnen hat ein einzigartiges Timbre. Ich möchte Menschen an ihrer Klangfarbe erkennen und wissen, wer spricht.

audio voice

— Dmitry
quelle

Die Aufgabe, eine lange zusammenhängende Audioaufnahme aufzunehmen und in Teile aufzuteilen, in denen nur ein Sprecher spricht - ohne vorherige Kenntnis der Spracheigenschaften jedes Sprechers - wird als "Sprecher-Diarisierung" bezeichnet. Links zum Forschungscode finden Sie auf der Wikipedia-Seite .

Wenn Sie zuvor Aufnahmen für jede Stimme gemacht haben und lieber eine Klassifizierung durchführen möchten, ist dies ein etwas anderes Problem (Sprechererkennung oder Sprecheridentifikation). Hierfür stehen hier Softwaretools zur Verfügung (beachten Sie, dass Spracherkennungspakete für allgemeine Zwecke wie Sphinx oder HTK flexibel genug sind, um dazu überredet zu werden).

— Pichenettes
quelle

Beeindruckend! Vielen Dank für eine so ausführliche Antwort. Ich bin daran interessiert, dies live zu machen, im Grunde zu erkennen, wann und wer spricht, und das vielleicht in eine separate Datei zu schreiben oder einfach zu schreiben, um zu protokollieren, wann und wer gesprochen hat.

— Dmitry

Haben Sie eine Bibliothek gefunden, die in Echtzeit funktioniert? Ich bin auf die IBM Watson-Spracherkennungs-API gestoßen, die jedoch nicht Open Source ist.

— subtleseeker