Ich arbeite an einem Problem bei der Textklassifizierung mit Random Forest als Klassifizierer und einem Ansatz mit vielen Wörtern. Ich verwende die grundlegende Implementierung von Random Forests (die in Scikit enthaltene), die bei jedem Split eine binäre Bedingung für eine einzelne Variable erstellt. In Anbetracht dessen gibt es einen Unterschied zwischen der Verwendung einfacher tf-Merkmale (Termfrequenz). Dabei ist jedem Wort eine Gewichtung zugeordnet, die die Anzahl der Vorkommen im Dokument darstellt, oder tf-idf (Termhäufigkeit * inverse Dokumenthäufigkeit), wobei die Termhäufigkeit auch mit einem Wert multipliziert wird, der das Verhältnis zwischen der Gesamtzahl der Dokumente darstellt und die Anzahl der Dokumente, die das Wort enthalten)?
Meiner Meinung nach sollte es keinen Unterschied zwischen diesen beiden Ansätzen geben, da der einzige Unterschied ein Skalierungsfaktor für jedes Merkmal ist. Da die Aufteilung jedoch auf der Ebene einzelner Merkmale erfolgt, sollte dies keinen Unterschied machen.
Habe ich recht in meiner Argumentation?