Warum eine in umgekehrte Dokumenthäufigkeit hinzufügen?


9

Mein Lehrbuch listet die IDF als wolog(1+Nnt)

  • : Anzahl der DokumenteN
  • : Anzahl der Dokumente, die den Begriff t enthaltenntt

Wikipedia listet diese Formel als eine geglättete Version des aktuellen . Das verstehe ich: es reicht vonlog(N.log(Nnt)bis∞,was intuitiv erscheint. Aberlog(1+N.log(NN)=0
geht vonlog(1+1)nach∞,was so seltsam erscheint ... Ich weiß ein wenig über das Glätten durch Sprachmodellierung, aber dort würden Sie sowohl im Zähler als auch im Nenner etwas hinzufügen, weil Sie sich Sorgen machen über die Wahrscheinlichkeitsmasse. Aber nur1hinzuzufügenmacht für mich keinen Sinn. Was versuchen wir hier zu erreichen?log(1+Nnt)log(1+1)
1



Die korrekte Glättung wird
log(N(1+nt))

Antworten:


7

+1

Ich habe die Formulierung eigentlich nie gesehenlog(1+Nnt)log(2)log(Nnt)log(Nnt)

k+log(N/s)k,s0,1s1+nt=1N

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.