Ich habe dies anfangs beim Stapelüberlauf gefragt und wurde auf diese Site verwiesen.
Ich implementiere einige unbeaufsichtigte Methoden zur Zusammenfassung von Dokumenten, die auf der Auswahl / Extraktion von Inhalten basieren, und bin verwirrt darüber, was mein Lehrbuch als "Log-Likelihood-Verhältnis" bezeichnet. Das Buch Speech and Language Processing von Jurafsky & Martin beschreibt es kurz als solches:
Das LLR für ein Wort, allgemein Lambda (w) genannt, ist das Verhältnis zwischen der Wahrscheinlichkeit, w sowohl in der Eingabe als auch im Hintergrundkorpus zu beobachten, wobei gleiche Wahrscheinlichkeiten in beiden Korpora angenommen werden, und der Wahrscheinlichkeit, w in beiden zu beobachten, wobei unterschiedliche Wahrscheinlichkeiten für angenommen werden w im Eingang und im Hintergrundkorpus.
Wenn wir das aufschlüsseln, haben wir den Zähler: "Die Wahrscheinlichkeit, w sowohl im Eingabe- als auch im Hintergrundkorpus zu beobachten, wobei gleiche Wahrscheinlichkeiten in beiden Korpora angenommen werden" - Wie berechne ich, welche Wahrscheinlichkeit hier verwendet werden soll?
und der Nenner: "die Wahrscheinlichkeit, w zu beobachten, wenn beide unterschiedliche Wahrscheinlichkeiten für w in der Eingabe und im Hintergrundkorpus annehmen". - Ist dies so einfach wie die Wahrscheinlichkeit, dass das Wort in der Eingabe vorkommt, multipliziert mit der Wahrscheinlichkeit, dass das Wort im Korpus vorkommt? Ex:
(Anzahl (Wort, Eingabe) / Gesamtzahl der eingegebenen Wörter) * (Anzahl (Wort, Korpus) / Gesamtzahl der Wörter im Korpus)
Ich habe einen Artikel in meinen Buchreferenzen " Genaue Methoden für die Statistik der Überraschung und des Zufalls" (Mahnwesen 1993) durchgesehen , aber es fällt mir schwer, mich auf das Problem der Berechnung von LLR-Werten für einzelne Wörter in einer extrahierungsbasierten Zusammenfassung zu beziehen. Jede Klarstellung hier wäre sehr dankbar.