Die Antwort ist sehr einfach: TF-IDF kann in Kombination mit einigen überwachten Methoden bessere Ergebnisse erzielen als Frequenzen mit einfachen Begriffen.
Das kanonische Beispiel verwendet die Kosinusähnlichkeit als Maß für die Ähnlichkeit zwischen Dokumenten. Wenn der Cosinus des Winkels zwischen der TF-IDF-Vektordarstellung von Dokumenten genommen wird, können relevante ähnliche Dokumente mit höherer Genauigkeit als bei TF allein erfolgreich abgerufen werden.
Dies liegt daran, dass IDF die Gewichtung von allgemeinen Wörtern verringert und die ungewöhnlichen Wörter in einem Dokument hervorhebt. In den meisten Nachrichtenartikeln geht es nicht um Strauße, daher ist ein Nachrichtenartikel mit "Strauß" ungewöhnlich, und wir möchten dies wissen, wenn wir versuchen, Dokumente zu finden, die ähnlich sind.
Aber im Fall einer Textkategorisierung mit standardmäßigen überwachten ML-Techniken, warum sollte man sich die Mühe machen, die Häufigkeit der Dokumente im Korpus nach unten zu gewichten? Wird nicht der Lernende selbst entscheiden, wie wichtig es ist, jedem Wort / jeder Wortkombination etwas zuzuweisen?
xyxyy), dann haben wir uns und unseren armen, überarbeiteten Computern die Aufgabe sehr erleichtert! Ich denke, dies ist eine unterschätzte Komponente des Fachgebiets - die Leute verbringen viel Zeit damit, die Algorithmen zu studieren und zu betrachten, weil sie domänenunabhängig sind, aber mehr über Ihre Daten und das Problem zu wissen, das Sie zu lösen versuchen, kann Wege vorschlagen Verbesserte Datenerfassung oder Datenrepräsentation, die die Aufgabe so viel einfacher machen - und so einfach, dass ein Modell aufwändiger Raffinessen nicht erforderlich ist.
Eine Reihe von Ressourcen gefunden werden kann hier , die ich der Einfachheit halber reproduzieren.
K. Sparck Jones. "Eine statistische Interpretation der Termspezifität und ihrer Anwendung beim Abrufen". Journal of Documentation, 28 (1). 1972.
G. Salton und Edward Fox und Wu Harry Wu. Msgstr "Erweiterte Boolesche Informationsabfrage". Mitteilungen des ACM, 26 (11). 1983.
G. Salton und MJ McGill. "Einführung in die moderne Informationsrecherche". 1983
G. Salton und C. Buckley. Msgstr "Ansätze zur Termgewichtung bei der automatischen Texterfassung". Informationsverarbeitung und -verwaltung, 24 (5). 1988.
H. Wu und R. Luk und K. Wong und K. Kwok. "Interpretieren von TF-IDF-Termgewichtungen als Treffen von Relevanzentscheidungen". ACM-Transaktionen in Informationssystemen, 26 (3). 2008.