In einer Text Mining-Anwendung besteht ein einfacher Ansatz darin, die Heuristik zu verwenden, um Vektoren als kompakte, spärliche Darstellungen der Dokumente zu erstellen. Dies ist in Ordnung für die Batch-Einstellung, bei der der gesamte Korpus a priori bekannt ist, da der i d f den gesamten Korpus benötigt
wobei ein Term ist, d ein Dokument, der Dokumentenkorpus und T (nicht gezeigt) das Wörterbuch.
In der Regel werden jedoch im Laufe der Zeit neue Dokumente empfangen. Eine Möglichkeit besteht darin, das vorhandene bis eine bestimmte Anzahl neuer Dokumente eingegangen ist, und es neu zu berechnen. Dies scheint jedoch eher ineffizient zu sein. Kennt jemand ein inkrementelles Aktualisierungsschema, das (möglicherweise ungefähr) gegen den Wert konvergiert, wenn alle Daten im Voraus gesehen wurden? Oder gibt es alternativ ein anderes Maß, das denselben Begriff erfasst, aber inkrementell berechnet werden kann?
Es gibt auch eine verwandte Frage, ob das über die Zeit ein gutes Maß bleibt. Da der IDF den Begriff der Korpusworthäufigkeit erfasst, ist es denkbar, dass ältere Dokumente im Korpus (z. B. mein Korpus enthält über 100 Jahre Zeitschriftenartikel), da sich die Häufigkeit verschiedener Wörter im Laufe der Zeit ändert. In diesem Fall kann es tatsächlich sinnvoll sein, ältere Dokumente wegzuwerfen, wenn neue eingehen, und zwar mithilfe eines Schiebefensters i d f . Es ist denkbar, dass man auch alle vorherigen i d f -Vektoren speichern kann, wenn neue berechnet werden, und wenn wir dann Dokumente von beispielsweise 1920-1930 abrufen möchten, können wir den i d f verwendenberechnet aus Dokumenten in diesem Datumsbereich. Ist dieser Ansatz sinnvoll?
Edit: Es gibt einen separaten , aber miteinander verbundene Problem über das Wörterbuch . Im Laufe der Zeit wird es neue Wörterbuchbegriffe geben, die vorher nicht erschienen sind, also | T | wird wachsen müssen, und daher die Länge des i d f -Vektors. Es scheint, dass dies kein Problem wäre, da Nullen an alte i d f -Vektoren angehängt werden könnten .