Wir suchen nach einer Möglichkeit, Text auf die gleiche oder ähnliche Weise zu tokenisieren, wie es eine Suchmaschine tun würde.
Der Grund, warum wir dies tun, ist, dass wir statistische Analysen für die Token durchführen können. Die Sprache, die wir verwenden, ist Python. Daher würden wir eine Technik bevorzugen, die in dieser Sprache funktioniert, aber möglicherweise etwas einrichten könnte, um bei Bedarf eine andere Sprache zu verwenden.
Beispiel
Original-Token:
Wir haben einige tolle Burritos!
Einfacher: (Plural und Interpunktion entfernen)
Wir haben einen tollen Burrito
Noch einfacher: (überflüssige Wörter entfernen)
toller Burrito
Am besten: (positive und negative Bedeutung erkennen):
Burrito -positiv-