Ich habe fünf Textdateien, die ich in einen CountVectorizer eingebe. Was bedeutet die minimale / maximale Dokumenthäufigkeit genau, wenn Sie der CountVectorizer-Instanz min_df und max_df angeben? Ist es die Häufigkeit eines Wortes in seiner bestimmten Textdatei oder ist es die Häufigkeit des Wortes im gesamten Gesamtkorpus (5 txt-Dateien)?
Wie unterscheidet es sich, wenn min_df und max_df als Ganzzahlen oder als Gleitkommazahlen bereitgestellt werden?
Die Dokumentation scheint weder eine gründliche Erklärung noch ein Beispiel für die Verwendung von min_df und / oder max_df zu liefern. Könnte jemand eine Erklärung oder ein Beispiel geben, das min_df oder max_df demonstriert.
min_df
heißt es: "Begriffe ignorieren, deren Dokumenthäufigkeit strikt unter dem angegebenen Schwellenwert liegt." Eine Frequenz, die streng niedriger als die Standardeinstellung von 1 ist, würde bedeuten, Begriffe zu ignorieren, die niemals erscheinen (!), Aber Begriffe beizubehalten, die einmal erscheinen.