Als Reaktion auf meine vorherige Frage habe ich mich gefragt, ob es Spracherkennungsbibliotheken gibt. Unter Spracherkennung verstehe ich das Übergeben eines Audiopuffers und das Zurückholen eines Indexes, in dem die Sprache beginnt und stoppt. Wenn ich also 10 Sekunden Audio-Sampling bei 44 kHz habe, würde ich eine Reihe von Zahlen erwarten, wie zum Beispiel:
44000
88000
123000
190334
...
Dies würde zum Beispiel anzeigen, dass die Sprache eine Sekunde später beginnt und dann an dem Punkt von zwei Sekunden endet usw.
Was ich nicht suche, ist Spracherkennung, die Text aus gesprochenem Wort schreibt. Das sehe ich leider oft, wenn ich auf "Spracherkennung" gehe.
Es wäre großartig, wenn die Bibliothek in C, C ++ oder sogar Objective-C wäre, da ich eine App für das iPhone schreibe.
Vielen Dank!