6
NLP: Was sind einige beliebte Pakete für die Tokenisierung mit mehreren Wörtern?
Ich beabsichtige, eine Reihe von Stellenbeschreibungstexten zu kennzeichnen. Ich habe die Standard-Tokenisierung mit Leerzeichen als Trennzeichen versucht. Ich habe jedoch festgestellt, dass es einige Mehrwortausdrücke gibt, die durch Leerzeichen geteilt werden, was bei der nachfolgenden Verarbeitung zu Genauigkeitsproblemen führen kann. Deshalb möchte ich die interessantesten / informativsten Kollokationen in diesen …