Lassen Sie mich zu Beginn sagen, dass ich sehr neu im maschinellen Lernen bin und nicht besonders gut in Mathe. Ich verstehe, was TF-IDF macht, aber in dem Buch, das ich lese, wird auch Folgendes erwähnt (es wird diskutiert, wie Scikit-Lernen Dinge macht):
Beide Klassen [TfidfTransformer und TfidfVectorizer] wenden nach Berechnung der tf-idf-Darstellung auch die L2-Normalisierung an. Mit anderen Worten, sie skalieren die Darstellung jedes Dokuments neu, um die euklidische Norm 1 zu erhalten. Eine Neuskalierung auf diese Weise bedeutet, dass die Länge eines Dokuments (die Anzahl der Wörter) die vektorisierte Darstellung nicht ändert.
Das ist alles, was es zu diesem Thema zu sagen hat. Ich denke, es bedeutet, und lassen Sie mich wissen, wenn ich falsch liege, dass wir die Werte so skalieren, dass der Wert 1 wäre, wenn sie alle quadriert und summiert würden (ich habe diese Definition von http://kawahara.ca übernommen / wie man Vektoren zu Einheitsnorm in Python normalisiert / ).
Die Idee ist also, dass die Merkmalswerte proportional zueinander werden. Ich bin mir jedoch nicht ganz sicher, wie das für das Modell hilfreich wäre. Hilft es dem Gesamtklassifizierer zu lernen, wenn einige Beispiele keine höhere Gesamtzahl an "aktivierten Funktionen" aufweisen als andere?
Hier ist auch eine grundlegende Frage: Hat die L2-Normalisierung etwas mit der L2-Regularisierung zu tun? Vielleicht ist es nur so, dass beide Begriffe quadrieren und summieren?
Welchen Einblick Sie auch teilen können, wir würden uns sehr freuen!