Unter welchen Umständen ist Lemmatisierung kein ratsamer Schritt bei der Arbeit mit Textdaten?

Gibt es unter Berücksichtigung möglicher Rechenbeschränkungen allgemeine Anwendungen, bei denen die Lemmatisierung ein kontraproduktiver Schritt bei der Analyse von Textdaten wäre?

Wäre Lemmatisierung beispielsweise etwas, das beim Erstellen eines kontextsensitiven Modells nicht durchgeführt wird?

Als Referenz ist Lemmatisierung per dictinory.com der Vorgang des Gruppierens der gebogenen Formen von (einem Wort) zur Analyse als ein einzelnes Element.

Zum Beispiel ist das Wort "kochen" das Lemma des Wortes "kochen". Beim Lemmatisieren wird beispielsweise das Wort Kochen durch Kochen ersetzt, nachdem Sie Ihre Textdaten mit einem Token versehen haben. Darüber hinaus hat das Wort "schlechter" "schlecht" als Lemma, und als vorheriges Beispiel ist das Ersetzen des Wortes "schlechter" durch "schlecht" die Aktion der Lemmatisierung.

nlp data-cleaning

— Zer0k
quelle

Ich denke, diese Frage würde mit einer kurzen Beschreibung dessen, was Lemmatisierung ist, verbessert werden

— kbrose

@kbrose Okay, ich kann eine kurze Beschreibung hinzufügen. Vielen Dank für den Vorschlag.

— Zer0k

Vielen Dank! Interessante Frage. Ich habe einfache Dinge wie einen Teil der Sprachkennzeichnung, die definitiv durch Lemmatisierung geschädigt würden. Neugierig zu sehen, ob es mehr gibt

— kbrose

NLP-Aufgaben, die durch Lemmatisierung geschädigt würden:

1) Zeitliche Klassifizierung

      sentence        |  tense
------------------------------------
He cooked a nice meal |  past
He cooks a nice meal  |  present

Die Zeichenfolge am Ende der Verben kann bei dieser Aufgabe hilfreich sein. Die gekochten Verben und Köche unterscheiden sich bei den letzten Zeichen ed und s .

Bei der Lemmatisierung gehen diese Informationen verloren. Beide Verben werden zu Köchen , wodurch beide Sätze (in diesem Fall) in der Gegenwart erscheinen.

2) Autorenidentifikation

Gegeben

$\mathcal{P}$ $a$
$\mathcal{Q}$ $b$
$\mathcal{S}$ $a$ $b$

$s\in\mathcal{S}$ $a$ $b$ .

$s$ $\mathcal{P}$ $\mathcal{Q}$

Dies funktioniert, weil verschiedene Autoren bestimmte Wörter mit unterschiedlichen Häufigkeiten verwenden. Durch die Verwendung der Lemmatisierung verzerren Sie jedoch diese Frequenzen und beeinträchtigen die Leistung Ihres Modells.

— Bruno Lubascher
quelle

Wenn also die Struktur und der Stil des Satzes / Dokuments relevant sind, ist die Lemmatisierung etwas Nachteiliges. Habe ich das richtig verstanden?

— Zer0k

@ Zer0k, richtig. Wenn die wichtigen Merkmale der Wörter detailliert sind, möchten Sie keine Lemmatisierung. Wenn Sie übergeordnete Aufgaben haben, z. B. eine Stimmungsanalyse, benötigen Sie diese Granularität nicht. "Dies ist das schlechteste Restaurant" oder "Dies ist das schlechteste Restaurant" geben Ihnen beide negative Gefühle.

— Bruno Lubascher

Ich habe Angst, dem Beispiel der Autorenidentifikation nicht zuzustimmen. Besonders bei kurzen Texten hilft die Lemmatisierung sehr. Andernfalls sind die Merkmalsvektoren zu dünn.

— Claude

@Claude, kannst du das bitte etwas erweitern? Was definieren Sie als Kurztext?

— Zer0k

@ Zer0k 200 Token oder bis zu 1000 oder so.

— Claude