Frage 1: "[..] sind englische Stemmers heute überhaupt nützlich? Da wir eine Vielzahl von Lemmatisierungswerkzeugen für Englisch haben"
Ja. Stemmers sind viel einfacher, kleiner und normalerweise schneller als Lemmatisatoren, und für viele Anwendungen sind ihre Ergebnisse gut genug . Die Verwendung eines Lemmatisators ist eine Verschwendung von Ressourcen. Betrachten Sie beispielsweise die Dimensionsreduzierung beim Abrufen von Informationen. Sie ersetzen alle Laufwerke / Laufwerke durch Laufwerke sowohl in den durchsuchten Dokumenten als auch in der Abfrage. Es ist dir egal, ob es sich um Drive oder Driv oder x17a $ handelt , solange es Flexionswörter zusammenfasst.
F2: "[..] Wie sollen wir fortfahren, um robuste Lemmatisierer zu bauen, die Vorprozesse verarbeiten, verbalisieren, adjektivieren und adverbifizieren können?
Was ist Ihre Definition eines Lemmas, beinhaltet es Ableitung ( Antrieb - Treiber ) oder nur Beugung ( Antrieb - Antriebe - gefahren )? Berücksichtigt es die Semantik?
Wenn Sie die Ableitung einbeziehen möchten (was die meisten Leute sagen würden, dass sie Substantive usw. enthält), denken Sie daran, dass die Ableitung weitaus unregelmäßiger ist als die Beugung. Es gibt viele Eigenheiten, Lücken usw. Möchten Sie wirklich ändern ( Züge wechseln ) und ändern (als Münzen), um das gleiche Lemma zu haben? Wenn nicht, wo ziehen Sie die Grenze? Wie wäre es Nerven - unnerve , Erde - ausgraben - Erdbewohner , ... Es hängt wirklich von der Anwendung ab .
Wenn Sie berücksichtigen Semantik ( Bank würde als beschriftbar Bank-Geld oder Bank-Fluss je nach Kontext), wie tief Sie gehen (unterscheiden Sie Bankinstitut von Bank-Gebäude )? Einige Apps interessieren sich möglicherweise überhaupt nicht dafür, andere möchten möglicherweise die grundlegende Semantik unterscheiden, andere möchten möglicherweise eine Feinabstimmung.
F3: "Wie kann die Lemmatisierungsaufgabe leicht auf andere Sprachen skaliert werden, die ähnliche morphologische Strukturen wie Englisch haben?"
Was meinst du mit "ähnlichen morphologischen Strukturen wie Englisch"? Englisch hat sehr wenig Flexionsmorphologie. Es gibt gute Lemmatisatoren für Sprachen anderer morphologischer Typen (wirklich Flexion, Agglutinativ, Template, ...).
Mit einer möglichen Ausnahme von agglutinativen Sprachen würde ich argumentieren, dass eine Nachschlagetabelle (z. B. ein komprimierter Versuch) die beste Lösung ist. (Möglicherweise mit einigen Sicherungsregeln für unbekannte Wörter wie Eigennamen). Auf die Suche folgt eine Art Disambiguierung (von trivial - nehmen Sie die erste oder nehmen Sie die erste, die mit den Worten POS-Tag übereinstimmt, bis zu einer viel ausgefeilteren). Die komplexeren Disambiguierungen sind normalerweise überwachte stochastische Algorithmen (z. B. TreeTagger oder Faster ), obwohl auch eine Kombination aus maschinellem Lernen und manuell erstellten Regeln durchgeführt wurde (siehe z . B. dies ).
Offensichtlich möchten Sie für die meisten Sprachen die Nachschlagetabelle nicht von Hand erstellen, sondern aus einer Beschreibung der Morphologie dieser Sprache generieren. Für Flexionssprachen können Sie den technischen Weg von Hajic für Tschechisch oder Mikheev für Russisch wählen oder, wenn Sie sich trauen, die zweistufige Morphologie verwenden. Oder Sie können etwas dazwischen tun, wie z. B. Hana (ich selbst) (Beachten Sie, dass dies alles vollständige morphologische Analysegeräte sind, die eine Lemmatisierung beinhalten). Oder Sie lernen den Lemmatizer unbeaufsichtigt a la Yarowsky und Wicentowski , möglicherweise mit manueller Nachbearbeitung, wobei die häufigsten Wörter korrigiert werden.
Es gibt viel zu viele Optionen und es hängt wirklich alles davon ab, was Sie mit den Ergebnissen machen möchten.