Gibt es eine anständige Spracherkennungssoftware für Linux?

49

Die Kurzversion der Frage: Ich suche eine Spracherkennungssoftware, die unter Linux läuft und eine anständige Genauigkeit und Benutzerfreundlichkeit aufweist. Jede Lizenz und Preis ist in Ordnung. Es sollte nicht auf Sprachbefehle beschränkt sein, da ich in der Lage sein möchte, Text zu diktieren.

Mehr Details:

Ich habe das Folgende unbefriedigend ausprobiert:

CMU Sphinx
CVoiceControl
Ohren
Julius
Kaldi (zB Kaldi GStreamer Server )
IBM ViaVoice (lief früher unter Linux, wurde aber vor Jahren eingestellt)
NICO ANN Toolkit
OpenMindSpeech
RWTH ASR
schreien
silvius ( basiert auf dem Spracherkennungs-Toolkit von Kaldi)
Simon hört zu
ViaVoice / Xvoice
Wine + Dragon NaturallySpeaking + NatLink + Libelle + Damselfly
https://github.com/DragonComputer/Dragonfire : Akzeptiert nur Sprachbefehle

Alle oben genannten nativen Linux-Lösungen sind sowohl ungenau als auch benutzerfreundlich (oder einige erlauben kein Freitext-Diktat, sondern nur Sprachbefehle). Mit schlechter Genauigkeit meine ich eine Genauigkeit, die deutlich unter der von der Spracherkennungssoftware liegt, die ich unten für andere Plattformen erwähnt habe. Was Wine + Dragon NaturallySpeaking betrifft, so stürzt es meiner Erfahrung nach immer wieder ab, und ich bin leider nicht der Einzige, der solche Probleme hat.

Unter Microsoft Windows verwende ich Dragon NaturallySpeaking, unter Apple Mac OS XI Apple Dictation und DragonDictate, unter Android Google-Spracherkennung und unter iOS die integrierte Apple-Spracherkennung.

Baidu Research hat gestern den Code für seine Spracherkennungsbibliothek unter Verwendung der mit Torch implementierten Connectionist Temporal Classification veröffentlicht . Benchmarks von Gigaom sind ermutigend, wie im folgenden Screenshot gezeigt, aber mir ist kein guter Wrapper bekannt, der es ohne einiges an Code (und einen großen Trainingsdatensatz) nutzbar macht:

Es gibt einige sehr Alpha-Open-Source-Projekte:

https://github.com/mozilla/DeepSpeech (Teil von Mozillas Vaani-Projekt: http://vaani.io ( mirror ))
https://github.com/pannous/tensorflow-speech-recognition
Vox, ein System zur Steuerung eines Linux-Systems mit Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo (wird von Google veröffentlicht und auf der Interspeech 2018 erwähnt)

Ich bin mir auch dieses Versuchs bewusst, den Stand der Technik und die jüngsten Ergebnisse (Bibliographie) zur Spracherkennung zu verfolgen. sowie diesen Benchmark bestehender Spracherkennungs-APIs .

Ich kenne Aenea , mit dem Spracherkennung über Dragonfly auf einem Computer Ereignisse an einen anderen Computer senden kann, aber es hat einige Latenzkosten:

Mir sind auch diese beiden Vorträge bekannt, in denen es um die Linux-Option zur Spracherkennung geht:

2016 - Die elfte HOFFNUNG: Sprachcodierung mit Open Source-Spracherkennung (David Williams-King)
2014 - Pycon: Mit Python per Sprache codieren (Tavis Rudd)

software-rec speech-recognition

— Franck Dernoncourt
quelle

2

Einige Details zu dem, was Sie als "unbefriedigend" empfunden haben, könnten Ihr ansonsten interessantes, aber eher allgemeines Beitragsthema voranbringen. Zum Beispiel: Was konkret fanden Sie an der Kombination "Wine + Dragon NaturallySpeaking" unbefriedigend? (Wie konnte es Ihre Windows-Erfahrung nicht replizieren?)

— Theophrastus

1

@Theophrastus Grundsätzlich weisen alle nativen Linux-Lösungen eine schlechte Genauigkeit und Benutzerfreundlichkeit auf. Mit schlechter Genauigkeit meine ich eine Genauigkeit, die deutlich unter der von der Spracherkennungssoftware liegt, die ich für andere Plattformen erwähnt habe. Was Wine + Dragon NaturallySpeaking angeht, stürzt es meiner Erfahrung nach immer wieder ab, und ich scheine leider nicht der einzige zu sein, der solche Probleme hat ( appdb.winehq.org/… )

— Franck Dernoncourt

1

Ich habe diese nicht ausprobiert, aber falls jemand sie nützlich findet: github.com/Uberi/speech_recognition und jasperproject.github.io und github.com/benoitfragit/google2ubuntu

— Hatschepsut

Gibt es eine dieser Software, die ein Befehlszeilentool hat? Es wäre sehr interessant, die Spracherkennung mit einem Tastendruck- und einem Mausbewegungstool wie xdotool ( github.com/jordansissel/xdotool ) oder xsendkey ( github.com/kyoto/sendkeys ) zu kombinieren .

— Taufe

13

Momentan experimentiere ich mit der Verwendung von KDE Connect in Kombination mit der Spracherkennung von Google auf meinem Android-Smartphone.

Mit KDE Connect können Sie Ihr Android-Gerät als Eingabegerät für Ihren Linux-Computer verwenden (es gibt auch einige andere Funktionen). Sie müssen die KDE Connect-App aus dem Google Play Store auf Ihrem Smartphone / Tablet installieren und sowohl kdeconnect als auch indicator-kdeconnect auf Ihrem Linux-Computer installieren. Für Ubuntu-Systeme läuft die Installation wie folgt ab:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Der Nachteil dieser Installation ist, dass eine Reihe von KDE-Paketen installiert werden, die Sie nicht benötigen, wenn Sie die KDE-Desktop-Umgebung nicht verwenden.

Sobald Sie Ihr Android-Gerät mit Ihrem Computer gekoppelt haben (sie müssen sich im selben Netzwerk befinden), können Sie die Android-Tastatur verwenden und dann auf das Mikrofon klicken / drücken, um die Google-Spracherkennung zu verwenden. Während Sie sprechen, wird Text überall dort angezeigt, wo Ihr Cursor auf Ihrem Linux-Computer aktiv ist.

Die Ergebnisse sind für mich etwas gemischt, da ich gerade ein technisches astrophysikalisches Dokument schreibe und die Google-Spracherkennung mit dem Jargon zu kämpfen hat, den Sie normalerweise nicht lesen. Vergessen Sie auch, Zeichensetzung oder korrekte Großschreibung herauszufinden.

— Schockbrenner
quelle

4

Derzeit funktioniert nur Voice Notebook unter Linux.

— Alexei
quelle

2

Danke, es funktioniert aber nur im Chrome-Browser.

— Franck Dernoncourt

3

Als ein weiterer Linuxer, der nach einem nützlichen Diktierprogramm suchte, habe ich mir speechpad.pw angesehen:

es erkennt meine Muttersprache sehr gut
es funktioniert schnell und sehr zuverlässig

Nachteile:

Natürlich ist es eine proprietäre und geschlossene Software von Google
Ein Google-Dienst hört, verarbeitet und speichert angeblich jedes Wort, das Sie sprechen
Audio und Text werden von Google verarbeitet und selbstverständlich gespeichert
Für speechpad.pw wird eine monatliche / vierteljährliche / jährliche Abonnementgebühr erhoben
speechpad.pw wird nur als Addon für den Google Chrome-Browser ausgeführt - keinen anderen Browser

Speechpad.pw ist also eine sehr geschützte und auch geschlossene Quelle und auch an Google gebunden, das wir alle als schlaflose Metadaten, persönliche Informationen und Sammler persönlicher Inhalte kennen.

Diese Nachteile machen es zu einer No-Go-Anwendung für mich, obwohl die Spracherkennung selbst sehr gut funktioniert - viel besser als alles, was ich bisher gesehen habe.

— zu
quelle

Danke, ja erhebliche Nachteile, vor allem, dass es nur im Chrome-Browser funktioniert.

— Franck Dernoncourt

1

Sie können Google Text & Tabellen in Chrome verwenden und die Option "Extras" »" Stimmen eingeben ... "verwenden. Wahrscheinlich genau dieselbe Spracherkennungssoftware, aber sie ist kostenlos. Kopieren Sie dann die Ergebnisse aus Ihrem Dokument, und fügen Sie sie dort ein, wo Sie den Text benötigen.

— Alexis Wilke

2

Die Chrome-App "VoiceNote II" ( http://voicenote.in/ ) funktioniert auf meinem Xubuntu 16.04-Computer hervorragend. Es war kein Sprachtraining erforderlich und die Einrichtung war einfach. Eine Suche, um es zu finden, ein Klick, um es zu installieren, ein Klick, um eine Verknüpfung zu erstellen und sie an den Desktop zu binden.

— Indy Tech Fix
quelle

Danke, funktioniert aber nur in Google Chrome

— Franck Dernoncourt

0

Ich würde vorschlagen, dass Sie Dragon auf Ihrem Telefon oder Tablet verwenden und den Text dann per E-Mail an sich selbst senden. Es ist ein Widerstand, aber es funktioniert und ist sehr genau. Wenn Sie darauf bestehen, Linux für diesen Zweck zu verwenden, wird das Kopieren und Veröffentlichen des Lebens durch das Abrufen eines zweiten Bildschirms erheblich erleichtert.

Ich habe dies nicht ausprobiert, aber möglicherweise können Sie das Python Bluetooth Chat-Programm mit dragon auf Ihrem Tablet / Telefon verwenden oder anpassen. Es kann auch Remote-Tastatur-Apps für Mobilgeräte geben, die Diktateingaben unterstützen.

Ich werde experimentieren und versuchen, mit etwas Bestimmtem auf Sie zurückzukommen.

— user273470
quelle

0

Ich benutze die KD Connect App. es funktioniert sehr effektiv! Ich kann meinen Blick auf den Monitor richten, während ich mit dem Telefon auf dem Schreibtisch spreche. Der einzige Nachteil ist, dass dies über die Google-Tastatur erfolgt. Es ist weder kostenlos, native noch Open Source. Dieser Kommentar wurde ohne Korrekturen veröffentlicht und getippt

— Josh Levine
quelle

-2

Sie können Sprache als Text in einer Linux-Anwendung verwenden. Diese Anwendung verwendet Google Speech Api und das Binärintegrationsmodul für 32- oder 64-Bit-Linux. Sie können eine kurze Präsentation der Verwendung der speechpad.pw-Tools in Ubuntu sehen

— Pavel Popov
quelle

1

OP sucht nach einer Sprach-Text-Engine. Das ist nur ein Web-UI-Wrapper (und noch dazu ein schlechter) um eine STT-Engine.

— Cerin