Ein traditioneller Ansatz der Feature-Konstruktion für das Text-Mining ist der Bag-of-Word-Ansatz und kann mithilfe von tf-idf zum Einrichten des Feature-Vektors, der ein bestimmtes Textdokument charakterisiert, erweitert werden. Gegenwärtig versuche ich, ein Bi-Gramm-Sprachmodell oder (N-Gramm) zum Erstellen eines Merkmalsvektors zu verwenden, weiß aber nicht genau, wie das geht? Können wir einfach dem Ansatz des Wortbeutels folgen, dh die Häufigkeit in Form von Bi-Gramm anstelle von Wörtern berechnen und mithilfe des tf-idf-Gewichtungsschemas verbessern?