Gibt es eine anständige Spracherkennungssoftware für Linux?


49

Die Kurzversion der Frage: Ich suche eine Spracherkennungssoftware, die unter Linux läuft und eine anständige Genauigkeit und Benutzerfreundlichkeit aufweist. Jede Lizenz und Preis ist in Ordnung. Es sollte nicht auf Sprachbefehle beschränkt sein, da ich in der Lage sein möchte, Text zu diktieren.


Mehr Details:

Ich habe das Folgende unbefriedigend ausprobiert:

Alle oben genannten nativen Linux-Lösungen sind sowohl ungenau als auch benutzerfreundlich (oder einige erlauben kein Freitext-Diktat, sondern nur Sprachbefehle). Mit schlechter Genauigkeit meine ich eine Genauigkeit, die deutlich unter der von der Spracherkennungssoftware liegt, die ich unten für andere Plattformen erwähnt habe. Was Wine + Dragon NaturallySpeaking betrifft, so stürzt es meiner Erfahrung nach immer wieder ab, und ich bin leider nicht der Einzige, der solche Probleme hat.

Unter Microsoft Windows verwende ich Dragon NaturallySpeaking, unter Apple Mac OS XI Apple Dictation und DragonDictate, unter Android Google-Spracherkennung und unter iOS die integrierte Apple-Spracherkennung.

Baidu Research hat gestern den Code für seine Spracherkennungsbibliothek unter Verwendung der mit Torch implementierten Connectionist Temporal Classification veröffentlicht . Benchmarks von Gigaom sind ermutigend, wie im folgenden Screenshot gezeigt, aber mir ist kein guter Wrapper bekannt, der es ohne einiges an Code (und einen großen Trainingsdatensatz) nutzbar macht:

Bildbeschreibung hier eingeben

Es gibt einige sehr Alpha-Open-Source-Projekte:

Ich bin mir auch dieses Versuchs bewusst, den Stand der Technik und die jüngsten Ergebnisse (Bibliographie) zur Spracherkennung zu verfolgen. sowie diesen Benchmark bestehender Spracherkennungs-APIs .


Ich kenne Aenea , mit dem Spracherkennung über Dragonfly auf einem Computer Ereignisse an einen anderen Computer senden kann, aber es hat einige Latenzkosten:

Bildbeschreibung hier eingeben

Mir sind auch diese beiden Vorträge bekannt, in denen es um die Linux-Option zur Spracherkennung geht:


2
Einige Details zu dem, was Sie als "unbefriedigend" empfunden haben, könnten Ihr ansonsten interessantes, aber eher allgemeines Beitragsthema voranbringen. Zum Beispiel: Was konkret fanden Sie an der Kombination "Wine + Dragon NaturallySpeaking" unbefriedigend? (Wie konnte es Ihre Windows-Erfahrung nicht replizieren?)
Theophrastus

1
@Theophrastus Grundsätzlich weisen alle nativen Linux-Lösungen eine schlechte Genauigkeit und Benutzerfreundlichkeit auf. Mit schlechter Genauigkeit meine ich eine Genauigkeit, die deutlich unter der von der Spracherkennungssoftware liegt, die ich für andere Plattformen erwähnt habe. Was Wine + Dragon NaturallySpeaking angeht, stürzt es meiner Erfahrung nach immer wieder ab, und ich scheine leider nicht der einzige zu sein, der solche Probleme hat ( appdb.winehq.org/… )
Franck Dernoncourt

1
Ich habe diese nicht ausprobiert, aber falls jemand sie nützlich findet: github.com/Uberi/speech_recognition und jasperproject.github.io und github.com/benoitfragit/google2ubuntu
Hatschepsut

Gibt es eine dieser Software, die ein Befehlszeilentool hat? Es wäre sehr interessant, die Spracherkennung mit einem Tastendruck- und einem Mausbewegungstool wie xdotool ( github.com/jordansissel/xdotool ) oder xsendkey ( github.com/kyoto/sendkeys ) zu kombinieren .
Taufe

Antworten:


13

Momentan experimentiere ich mit der Verwendung von KDE Connect in Kombination mit der Spracherkennung von Google auf meinem Android-Smartphone.

Mit KDE Connect können Sie Ihr Android-Gerät als Eingabegerät für Ihren Linux-Computer verwenden (es gibt auch einige andere Funktionen). Sie müssen die KDE Connect-App aus dem Google Play Store auf Ihrem Smartphone / Tablet installieren und sowohl kdeconnect als auch indicator-kdeconnect auf Ihrem Linux-Computer installieren. Für Ubuntu-Systeme läuft die Installation wie folgt ab:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

Der Nachteil dieser Installation ist, dass eine Reihe von KDE-Paketen installiert werden, die Sie nicht benötigen, wenn Sie die KDE-Desktop-Umgebung nicht verwenden.

Sobald Sie Ihr Android-Gerät mit Ihrem Computer gekoppelt haben (sie müssen sich im selben Netzwerk befinden), können Sie die Android-Tastatur verwenden und dann auf das Mikrofon klicken / drücken, um die Google-Spracherkennung zu verwenden. Während Sie sprechen, wird Text überall dort angezeigt, wo Ihr Cursor auf Ihrem Linux-Computer aktiv ist.

Die Ergebnisse sind für mich etwas gemischt, da ich gerade ein technisches astrophysikalisches Dokument schreibe und die Google-Spracherkennung mit dem Jargon zu kämpfen hat, den Sie normalerweise nicht lesen. Vergessen Sie auch, Zeichensetzung oder korrekte Großschreibung herauszufinden.

Bildbeschreibung hier eingeben

Bildbeschreibung hier eingeben



3

Als ein weiterer Linuxer, der nach einem nützlichen Diktierprogramm suchte, habe ich mir speechpad.pw angesehen:

  • es erkennt meine Muttersprache sehr gut
  • es funktioniert schnell und sehr zuverlässig

Nachteile:

  • Natürlich ist es eine proprietäre und geschlossene Software von Google
  • Ein Google-Dienst hört, verarbeitet und speichert angeblich jedes Wort, das Sie sprechen
  • Audio und Text werden von Google verarbeitet und selbstverständlich gespeichert
  • Für speechpad.pw wird eine monatliche / vierteljährliche / jährliche Abonnementgebühr erhoben
  • speechpad.pw wird nur als Addon für den Google Chrome-Browser ausgeführt - keinen anderen Browser

Speechpad.pw ist also eine sehr geschützte und auch geschlossene Quelle und auch an Google gebunden, das wir alle als schlaflose Metadaten, persönliche Informationen und Sammler persönlicher Inhalte kennen.

Diese Nachteile machen es zu einer No-Go-Anwendung für mich, obwohl die Spracherkennung selbst sehr gut funktioniert - viel besser als alles, was ich bisher gesehen habe.


Danke, ja erhebliche Nachteile, vor allem, dass es nur im Chrome-Browser funktioniert.
Franck Dernoncourt

1
Sie können Google Text & Tabellen in Chrome verwenden und die Option "Extras" »" Stimmen eingeben ... "verwenden. Wahrscheinlich genau dieselbe Spracherkennungssoftware, aber sie ist kostenlos. Kopieren Sie dann die Ergebnisse aus Ihrem Dokument, und fügen Sie sie dort ein, wo Sie den Text benötigen.
Alexis Wilke

2

Die Chrome-App "VoiceNote II" ( http://voicenote.in/ ) funktioniert auf meinem Xubuntu 16.04-Computer hervorragend. Es war kein Sprachtraining erforderlich und die Einrichtung war einfach. Eine Suche, um es zu finden, ein Klick, um es zu installieren, ein Klick, um eine Verknüpfung zu erstellen und sie an den Desktop zu binden.


Danke, funktioniert aber nur in Google Chrome
Franck Dernoncourt

0

Ich würde vorschlagen, dass Sie Dragon auf Ihrem Telefon oder Tablet verwenden und den Text dann per E-Mail an sich selbst senden. Es ist ein Widerstand, aber es funktioniert und ist sehr genau. Wenn Sie darauf bestehen, Linux für diesen Zweck zu verwenden, wird das Kopieren und Veröffentlichen des Lebens durch das Abrufen eines zweiten Bildschirms erheblich erleichtert.

Ich habe dies nicht ausprobiert, aber möglicherweise können Sie das Python Bluetooth Chat-Programm mit dragon auf Ihrem Tablet / Telefon verwenden oder anpassen. Es kann auch Remote-Tastatur-Apps für Mobilgeräte geben, die Diktateingaben unterstützen.

Ich werde experimentieren und versuchen, mit etwas Bestimmtem auf Sie zurückzukommen.


0

Ich benutze die KD Connect App. es funktioniert sehr effektiv! Ich kann meinen Blick auf den Monitor richten, während ich mit dem Telefon auf dem Schreibtisch spreche. Der einzige Nachteil ist, dass dies über die Google-Tastatur erfolgt. Es ist weder kostenlos, native noch Open Source. Dieser Kommentar wurde ohne Korrekturen veröffentlicht und getippt


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.