Was ist der Unterschied zwischen System.Speech.Recognition und Microsoft.Speech.Recognition?

Question 1

In .NET gibt es zwei ähnliche Namespaces und Assemblys für die Spracherkennung. Ich versuche die Unterschiede zu verstehen und wann es angebracht ist, den einen oder anderen zu verwenden.

Es gibt System.Speech.Recognition aus der Assembly System.Speech (in System.Speech.dll). System.Speech.dll ist eine Kern-DLL in der .NET Framework-Klassenbibliothek 3.0 und höher

Es gibt auch Microsoft.Speech.Recognition aus der Assembly Microsoft.Speech (in microsoft.speech.dll). Microsoft.Speech.dll ist Teil des UCMA 2.0 SDK

Ich finde die Dokumente verwirrend und habe folgende Fragen:

Laut System.Speech.Recognition handelt es sich um "The Windows Desktop Speech Technology". Bedeutet dies, dass es nicht auf einem Server-Betriebssystem oder nicht für Anwendungen in großem Maßstab verwendet werden kann?

Das UCMA 2.0 Speech SDK ( http://msdn.microsoft.com/en-us/library/dd266409%28v=office.13%29.aspx ) gibt an, dass Microsoft Office Communications Server 2007 R2 als Voraussetzung erforderlich ist. Bei Konferenzen und Besprechungen wurde mir jedoch mitgeteilt, dass ich die UCMA 2.0-Sprach-API ohne OCS verwenden kann, wenn ich keine OCS-Funktionen wie Präsenz und Workflow benötige. Ist das wahr?

Was sind die Unterschiede zwischen den beiden APIs, wenn ich eine einfache Erkennungs-App für eine Serveranwendung erstelle (z. B. wollte ich Voicemails automatisch transkribieren) und keine OCS-Funktionen benötige?

Question 2

Die kurze Antwort lautet, dass Microsoft.Speech.Recognition die Serverversion von SAPI verwendet, während System.Speech.Recognition die Desktop-Version von SAPI verwendet.

Die APIs sind größtenteils gleich, aber die zugrunde liegenden Engines sind unterschiedlich. In der Regel ist die Server-Engine so konzipiert, dass sie Audio in Telefonqualität für Befehls- und Steuerungsanwendungen akzeptiert. Die Desktop-Engine akzeptiert Audio in höherer Qualität sowohl für Befehls- und Steuerungs- als auch für Diktieranwendungen.

Sie können System.Speech.Recognition auf einem Server-Betriebssystem verwenden, es ist jedoch nicht annähernd so skalierbar wie Microsoft.Speech.Recognition.

Die Unterschiede bestehen darin, dass die Server-Engine keine Schulung benötigt und mit Audio von geringerer Qualität arbeitet, jedoch eine geringere Erkennungsqualität als die Desktop-Engine aufweist.

Question 3

Ich fand Erics Antwort wirklich hilfreich. Ich wollte nur einige weitere Details hinzufügen, die ich gefunden habe.

Mit System.Speech.Recognition können die Desktop-Erkenner programmiert werden. SAPI- und Desktop-Erkenner haben die Produkte ausgeliefert:

Windows XP: SAPI v5.1 und kein Erkenner
Windows XP Tablet Edition: SAPI v5.1 und Recognizer v6.1
Windows Vista: SAPI v5.3 und Recognizer v8.0
Windows 7: SAPI v5.4 und Recognizer v8.0?

Server werden mit SAPI geliefert, aber ohne Erkenner:

Windows Server 2003: SAPI v5.1 und kein Erkenner
Windows Server 2008 und 2008 R2: SAPI v5.3? und kein Erkenner

Desktop-Erkenner wurden auch in Produkten wie Office ausgeliefert.

Microsoft Office 2003: Recognizer v6.1

Microsoft.Speech.Recognition kann zum Programmieren der Servererkenner verwendet werden. Servererkenner wurden in den Produkten ausgeliefert:

Sprachserver (verschiedene Versionen)
Office Communications Server (OCS) (verschiedene Versionen)
UCMA - eine verwaltete API für OCS, die (glaube ich) einen weiterverteilbaren Erkenner enthält
Microsoft Server Speech Platform - Erkenner v10.2

Das vollständige SDK für die Microsoft Server Speech Platform 10.2-Version finden Sie unter http://www.microsoft.com/downloads/en/details.aspx?FamilyID=1b1604d3-4f66-4241-9a21-90a294a5c9a4 . Die Sprachmaschine ist ein kostenloser Download. Version 11 ist jetzt unter http://www.microsoft.com/download/en/details.aspx?id=27226 verfügbar .

Informationen und Downloads zu Microsoft Speech Platform SDK 11 finden Sie unter:

Sprachpakete - http://www.microsoft.com/en-us/download/details.aspx?id=27224
Laufzeit-Engine - http://www.microsoft.com/en-us/download/details.aspx?id=27225
SDK - http://www.microsoft.com/en-us/download/details.aspx?id=27226
MSDN-Dokumentation - http://msdn.microsoft.com/en-us/library/dd266409

Desktop-Erkenner können inproc ausgeführt oder gemeinsam genutzt werden. Freigegebene Erkenner sind auf dem Desktop nützlich, auf dem Sprachbefehle zur Steuerung offener Anwendungen verwendet werden. Servererkenner können nur inproc ausführen. Inproc-Erkenner werden verwendet, wenn eine einzelne Anwendung den Erkenner verwendet oder wenn WAV-Dateien oder Audiostreams erkannt werden müssen (gemeinsam genutzte Erkenner können keine Audiodateien verarbeiten, nur Audio von Eingabegeräten).

Nur Desktop-Spracherkenner enthalten eine Diktatgrammatik (vom System bereitgestellte Grammatik für das Diktieren von Freitext). Die Klasse System.Speech.Recognition.DictationGrammar hat keine Ergänzung im Microsoft.Speech-Namespace.

Sie können die APIs verwenden, um Ihre installierten Recongizer abzufragen

Desktop: System.Speech.Recognition.SpeechRecognitionEngine.InstalledRecognizers ()
Server: Microsoft.Speech.Recognition.SpeechRecognitionEngine.InstalledRecognizers ()

Ich habe festgestellt, dass ich auch anhand der Registrierungsschlüssel sehen kann, welche Erkenner installiert sind:

Desktop-Erkenner: HKEY_LOCAL_MACHINE \ SOFTWARE \ Microsoft \ Speech \ Recognizers \ Tokens
Servererkenner: HKEY_LOCAL_MACHINE \ SOFTWARE \ Microsoft \ Speech Server \ v10.0 \ Recognizers \ Tokens

--- Update ---

Wie in Microsoft Speech Recognition beschrieben - welche Referenz muss ich hinzufügen? , Microsoft.Speech ist auch die API, die für den Kinect-Erkenner verwendet wird. Dies ist im MSDN-Artikel http://msdn.microsoft.com/en-us/library/hh855387.aspx dokumentiert

Question 4

Hier ist der Link für die Sprachbibliothek (MS Server Speech Platform):

Microsoft Server Speech Platform 10.1 veröffentlicht (SR und TTS in 26 Sprachen)

Question 5

Anscheinend hat Microsoft einen Artikel geschrieben, der die Unterschiede zwischen Microsoft Speech Platform und Windows SAPI aufklärt - https://msdn.microsoft.com/en-us/library/jj127858.aspx . Ein Unterschied, den ich beim Konvertieren des Spracherkennungscodes für Kinect von Microsoft.Speech in System.Speech (siehe http://github.com/birbilis/Hotspotizer ) festgestellt habe, war, dass ersterer SGRS-Grammatiken mit Tag-Format = Semantik / 1.0- unterstützt Literale, während letzteres dies nicht tut und Sie in Semantik / 1.0 konvertieren müssen, indem Sie x in out = "x" ändern; bei Tags