Dies ist eine Art Antwort auf diese Frage nach den Forschungsrichtungen der NLG im Bereich der Linguistik.
Wie führen persönliche Assistententools wie Siri, Google Now oder Cortana die Natural Language Generation (NLG) durch? Insbesondere der Satztextgenerierungsteil . Ich interessiere mich nicht für den Text-zu-Sprache-Teil, sondern nur für den Textgenerierungsteil.
Ich suche nicht genau, wie jeder es tut, da diese Informationen wahrscheinlich nicht verfügbar sind.
Ich frage mich, welches Setup erforderlich ist, um die Satzgenerierung dieser Qualität zu implementieren.
- Welche Art von Daten würden Sie in einer Datenbank benötigen (auf hoher Ebene)?
- Benötigt es ein Wörterbuch für jedes mögliche Wort und seine Bedeutung sowie viele Bücher / Korpora, die kommentiert und statistisch analysiert wurden?
- Erfordert es tatsächlich, dass Menschen auf natürliche Weise sprechen (z. B. aus Fernsehsendungen oder Podcasts), sie in Text umschreiben und diese dann irgendwie zu ihrem "System" hinzufügen? (um wirklich "menschliche" Sätze zu bekommen)
- Oder gibt es nur einfache syntaxbasierte Satzmuster, die sie verwenden, ohne gigantische semantische "Bedeutungs" -Datenbank? Wo jemand gerade ein paar reguläre Ausdrücke geschrieben hat, schreibe etwas.
- Welche Algorithmen werden für solche natürlich geschriebenen menschenähnlichen Sätze verwendet?
Ein Grund für die Frage ist, dass das NLG-Feld anscheinend weit davon entfernt ist, das zu tun, was Siri, Google Now und andere leisten. Also, was für Sachen machen sie? (Nur für den Teil der Satztextgenerierung).