Eine erste Anmerkung: Die meisten modernen Text-zu-Sprache-Systeme, wie das von AT & T, mit dem Sie verbunden sind, verwenden eine verkettete Sprachsynthese . Bei dieser Technik wird eine große Datenbank mit Aufzeichnungen der Stimme einer Person verwendet, die eine lange Sammlung von Sätzen enthält - so ausgewählt, dass die größte Anzahl von Phonemkombinationen vorhanden ist. Das Zusammensetzen eines Satzes kann einfach durch Aneinanderreihen von Segmenten aus diesem Korpus erfolgen. Das Herausfordernde dabei ist, das Aneinanderreihen nahtlos und ausdrucksstark zu gestalten.
Es gibt zwei große Hürden, wenn Sie diese Technik verwenden möchten, um Präsident Obama dazu zu bringen, peinliche Worte zu sagen:
- Sie müssen Zugriff auf eine große Sammlung von Sätzen der Zielstimme haben, die vorzugsweise mit einheitlichen Aufnahmebedingungen und guter Qualität aufgenommen wurden. AT & T hat ein Budget, um Dutzende von Stunden mit demselben Sprecher im selben Studio aufzunehmen, aber wenn Sie die Stimme einer anderen Person nach nur 5 Minuten Aufnahme vortäuschen möchten, ist dies schwierig.
- Es gibt eine beträchtliche Menge an manueller Ausrichtung und Vorverarbeitung, bevor das aufgezeichnete Rohmaterial in dem richtigen "Format" vorliegt, um von einem verketteten Sprachsynthesesystem genutzt zu werden.
Ihre Vorstellung, dass dies eine mögliche Lösung ist, ist berechtigt - vorausgesetzt, Sie haben das Budget, um diese beiden Probleme anzugehen.
Glücklicherweise gibt es andere Techniken, die mit weniger Aufsicht und weniger Daten arbeiten können. Das Gebiet der Sprachsynthese, das eine Stimme aus einer Aufzeichnung "vortäuschen" oder "nachahmen" möchte, ist als Sprachumwandlung bekannt . Sie haben eine Aufzeichnung A1 des Zielsprechers A, die Satz 1 sagt, und eine Aufzeichnung B2 des Quellsprechers B, die Satz 2 sagt, Sie möchten eine Aufzeichnung A2 des Sprechers A, die Satz 2 sagt, möglicherweise mit Zugriff auf eine Aufzeichnung B1 des Sprechers B wiedergeben mit seiner / ihrer Stimme die gleiche Äußerung wie der Zielsprecher.
Der Umriss eines Sprachumwandlungssystems ist der folgende:
- Audio-Features werden aus der Aufzeichnung A1 extrahiert und in akustische Klassen zusammengefasst. In diesem Stadium ist es ein bisschen so, als würden Taschen alle "a" von Sprecher A, alle "o" von Sprecher A usw. sein. Beachten Sie, dass dies eine viel einfachere und gröbere Operation ist als echte Spracherkennung - wir sind nicht daran interessiert Wenn wir richtig geformte Wörter erkennen - und wir wissen nicht einmal, welche Tasche "o" und welche Tasche "a" enthält -, wissen wir nur, dass wir in jeder Tasche mehrere Instanzen desselben Klangs haben.
- Der gleiche Prozess wird auf B2 angewendet.
- Die Akustikklassen von A1 und B2 sind aufeinander abgestimmt. Um mit der Taschen-Analogie fortzufahren, entspricht dies dem Koppeln der Taschen aus Schritt 1 und 2, sodass alle Töne, die wir in dieser Tasche von Lautsprecher A haben, den Tönen entsprechen sollten, die wir in dieser Tasche von Lautsprecher B haben Dies ist viel einfacher, wenn in Schritt 2 B1 verwendet wird.
- Für jedes Beutelpaar wird eine Zuordnungsfunktion geschätzt. Da wir wissen, dass dieser Beutel Töne von Sprecher A enthält und dieser Beutel dieselben Töne, die jedoch von Sprecher B gesagt werden - können wir eine Operation (zum Beispiel eine Matrixmultiplikation auf Merkmalsvektoren) finden, die sie korrespondieren lässt. Mit anderen Worten, wir wissen jetzt, wie das "o" von Lautsprecher 2 wie das "o" von Lautsprecher 1 klingt.
- Zu diesem Zeitpunkt haben wir alle Karten in der Hand, um die Sprachumwandlung durchzuführen. Aus jeder Schicht der Aufnahme von B2 ermitteln wir anhand des Ergebnisses von Schritt 2, welcher akustischen Klasse sie entspricht. Wir verwenden dann die in Schritt 4 geschätzte Zuordnungsfunktion, um das Slice zu transformieren.
Ich bestehe darauf, dass dies auf einem viel niedrigeren Niveau abläuft als die Spracherkennung auf B2 und dann TTS unter Verwendung der A1-Stimme als Korpus.
Für die Schritte 1 und 2 werden verschiedene statistische Techniken verwendet, wobei GMM oder VQ die häufigsten sind. Für Teil 2 werden verschiedene Ausrichtungsalgorithmen verwendet - dies ist der schwierigste Teil, und es ist offensichtlich einfacher, A1 gegen B1 auszurichten als A1 gegen B2. Im einfacheren Fall können Methoden wie Dynamic Time Warping verwendet werden, um die Ausrichtung vorzunehmen. Wie in Schritt 4 sind die häufigsten Transformationen lineare Transformationen (Matrixmultiplikation) auf Merkmalsvektoren. Komplexere Transformationen sorgen für realistischere Imitationen, aber das Regressionsproblem zum Finden der optimalen Abbildung ist komplexer zu lösen. Schließlich ist die Qualität der Resynthese in Schritt 5 durch die verwendeten Merkmale begrenzt. LPC lassen sich in der Regel einfacher mit einer einfachen Transformationsmethode umgehen (Signalrahmen nehmen -> Residuum abschätzen und LPC-Spektrum -> ggf. Pitch-Shift-Residuum -> modifiziertes LPC-Spektrum auf modifizierten Rest anwenden). Der Schlüssel liegt hier in der Verwendung einer Sprachdarstellung, die in den Zeitbereich zurückverwandelt werden kann und eine gute Trennung zwischen Prosodie und Phonemen bietet! Vorausgesetzt, Sie haben Zugriff auf aufeinander abgestimmte Aufzeichnungen von Sprecher A und B, die denselben Satz sagen, gibt es statistische Modelle, die gleichzeitig die Schritte 1, 2, 3 und 4 in einem einzigen Modellschätzungsverfahren angehen.
Vielleicht komme ich später mit einer Bibliographie zurück, aber ein sehr guter Ausgangspunkt, um ein Gefühl für das Problem und den allgemeinen Rahmen zu bekommen, der zur Lösung des Problems verwendet wird, ist Stylianou, Moulines und Cappés "Ein System zur Sprachumwandlung auf der Basis einer probabilistischen Klassifikation und einer Harmonischen plus Geräuschmodell ".
Meines Wissens gibt es keine weit verbreitete Software, die eine Sprachumwandlung durchführt - nur Software, die die Eigenschaften der Quellstimme modifiziert - wie Tonhöhe und Länge des Stimmtrakts (zum Beispiel IRCAM TRAX-Transformator) - mit denen Sie in der Hoffnung herumspielen müssen, Ihre Stimme zu verändern Ton näher an der Zielstimme aufnehmen.