Spracherkennungs-App, um MP3 in Text umzuwandeln?


Antworten:


21

Die Software, die Sie verwenden können, ist CMUSphinx . Anders als in einer anderen Antwort vorgeschlagen, ist Julius nicht geeignet, da er Modelle benötigt. Modelle für die Spracherkennung mit großem Wortschatz sind für Julius nicht verfügbar.

Mit pocketsphinx können Sie Audiodateien konvertieren. Diese beiden Befehle müssen die Arbeit erledigen. Zuerst konvertieren Sie die Datei in das gewünschte Format und erkennen es dann:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

Die Run Pocketsphinx

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

Ergebnis wird in result.txt gespeichert.


Als Ergänzung zu dieser Antwort gibt es hier eine coole Demo von beiden speech recognitionund voice commandTools: youtube.com/…
Daithí

Wie fügt man dem System ein akustisches Modell hinzu?
jarno

Laden Sie es einfach herunter und entpacken Sie es. Es gibt kein "Hinzufügen zum System"
Nikolay Shmyrev

@NikolayShmyrev Wo soll ich es auspacken, damit pocketsphinx_continuous es findet?
jarno

4
Nun, ich habe die Pakete pocketsphinx-utils, pocketsphinx-hmm-en-hub4wsj und pocketsphinx-lm-en-hub4 im Universums-Repository von Ubuntu 14.04 installiert. Dann hat pocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.loggearbeitet. Vielleicht sind sie keine optimalen Pakete, aber sie waren die besten Übereinstimmungen, die ich in den Repositories finden konnte.
jarno

12

Ich weiß, dass dies alt ist, aber um die Antwort von Nikolay zu erweitern und hoffentlich in Zukunft jemandem Zeit zu sparen, müssen Sie eine aktuelle Version von pocketsphinx aus dem Github- oder Sourceforge-Repository kompilieren (nicht sicher) was aktueller gehalten wird). Beachten Sie, dass -j8 bedeutet, dass nach Möglichkeit 8 separate Jobs gleichzeitig ausgeführt werden. Wenn Sie mehr CPU-Kerne haben, können Sie die Anzahl erhöhen.

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

Dann laden Sie unter https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ die neuesten Versionen von cmusphinx-en-us-....tar.gzund herunteren-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

Dann können Sie endlich mit den Schritten aus Nikolays Antwort fortfahren:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

Sphinx funktioniert gut. Ich würde mich nicht darauf verlassen, dass eine lesbare Version des Textes erstellt wird, aber es ist gut genug, dass Sie danach suchen können, wenn Sie nach einem bestimmten Zitat suchen. Das funktioniert besonders gut, wenn Sie einen Suchalgorithmus wie Xapian ( http://www.lesbonscomptes.com/recoll/ ) verwenden, der Platzhalter akzeptiert und keine genauen Suchausdrücke erfordert.

Hoffe das hilft.


4
Alles funktioniert wie ein Zauber, aber in meinem Fall musste ich den folgenden Befehl ausführen, um pocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Vijay Dohare


11

Wenn Sie Sprache in Text umwandeln möchten, können Sie versuchen, Ihr Ubuntu Software Center zu öffnen und nach Julius zu suchen

Beschreibung

"Julius" ist eine leistungsstarke LVCSR-Decodersoftware (Large Vocabulary Continuous Speech Recognition) mit zwei Durchgängen für sprachbezogene Forscher und Entwickler.

Eine andere Option, die nicht im Software Center enthalten ist, ist Simon

... ist ein Open-Source-Spracherkennungsprogramm und ersetzt Maus und Tastatur.

Referenz-Links

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.