Log-Likelihood-Verhältnis in der Dokumentzusammenfassung

Ich habe dies anfangs beim Stapelüberlauf gefragt und wurde auf diese Site verwiesen.

Ich implementiere einige unbeaufsichtigte Methoden zur Zusammenfassung von Dokumenten, die auf der Auswahl / Extraktion von Inhalten basieren, und bin verwirrt darüber, was mein Lehrbuch als "Log-Likelihood-Verhältnis" bezeichnet. Das Buch Speech and Language Processing von Jurafsky & Martin beschreibt es kurz als solches:

Das LLR für ein Wort, allgemein Lambda (w) genannt, ist das Verhältnis zwischen der Wahrscheinlichkeit, w sowohl in der Eingabe als auch im Hintergrundkorpus zu beobachten, wobei gleiche Wahrscheinlichkeiten in beiden Korpora angenommen werden, und der Wahrscheinlichkeit, w in beiden zu beobachten, wobei unterschiedliche Wahrscheinlichkeiten für angenommen werden w im Eingang und im Hintergrundkorpus.

Wenn wir das aufschlüsseln, haben wir den Zähler: "Die Wahrscheinlichkeit, w sowohl im Eingabe- als auch im Hintergrundkorpus zu beobachten, wobei gleiche Wahrscheinlichkeiten in beiden Korpora angenommen werden" - Wie berechne ich, welche Wahrscheinlichkeit hier verwendet werden soll?

und der Nenner: "die Wahrscheinlichkeit, w zu beobachten, wenn beide unterschiedliche Wahrscheinlichkeiten für w in der Eingabe und im Hintergrundkorpus annehmen". - Ist dies so einfach wie die Wahrscheinlichkeit, dass das Wort in der Eingabe vorkommt, multipliziert mit der Wahrscheinlichkeit, dass das Wort im Korpus vorkommt? Ex:

(Anzahl (Wort, Eingabe) / Gesamtzahl der eingegebenen Wörter) * (Anzahl (Wort, Korpus) / Gesamtzahl der Wörter im Korpus)

Ich habe einen Artikel in meinen Buchreferenzen " Genaue Methoden für die Statistik der Überraschung und des Zufalls" (Mahnwesen 1993) durchgesehen , aber es fällt mir schwer, mich auf das Problem der Berechnung von LLR-Werten für einzelne Wörter in einer extrahierungsbasierten Zusammenfassung zu beziehen. Jede Klarstellung hier wäre sehr dankbar.

natural-language text-summarization

— Richard
quelle

Können Sie uns sagen, was das Lehrbuch ist?

— Onestop

Sprach- und Sprachverarbeitung von Jurafsky & Martin

— Richard

Mit meinem begrenzten Wissen denke ich:

"Die Wahrscheinlichkeit, w bei der Eingabe zu beobachten" erfordert eine Verteilung, um den Wert zu berechnen
"Die Wahrscheinlichkeit, w sowohl in der Eingabe als auch im Hintergrundkorpus zu beobachten, wobei gleiche Wahrscheinlichkeiten in beiden Korpora angenommen werden" bedeutet "die Wahrscheinlichkeit, w ... zu beobachten, vorausgesetzt, die Wahrscheinlichkeit für w ist in beiden Korpora gleich".

Hier ist meine Formulierung dafür:

Das Problem ein wenig formulieren:

Hypothese 1: P (w in der Eingabe) = P (w im Hintergrund) = p
$\ne$

Der entscheidende Teil ist, dass Sie hier eine Verteilung annehmen müssen. Vereinfacht nehmen wir die Binomialverteilung zur Erzeugung von w in einem Text an. Angesichts der Stichprobendaten können wir die Schätzung der maximalen Wahrscheinlichkeit verwenden, um den Wert für p, p1 und p2 zu berechnen. Hier sind sie:

p = (Anzahl-von-w-in-Eingabe + Anzahl-von-w-im-Hintergrund) / (Eingabegröße + Hintergrundgröße) = (c1 + c2) / (N1 + N2)
p1 = c1 / N1
p2 = c2 / N2

Wir wollen wissen, welche Hypothese wahrscheinlicher ist. Daher berechnen wir die Wahrscheinlichkeit jeder Hypothese und vergleichen sie miteinander (was im Grunde genommen das Wahrscheinlichkeitsverhältnis ist).

Da wir von einer Binomialverteilung ausgehen , können wir die Wahrscheinlichkeit von c1 und c2 berechnen.

Für Hypothese 1:

L (c1) = Die Wahrscheinlichkeit, w in der Eingabe zu beobachten = die Wahrscheinlichkeit, c1 zu erreichen, wenn es N1 Wörter gibt, die die Wahrscheinlichkeit p annehmen (oder mit anderen Worten w für c1 mal aus N1 mal auswählen), ist b (N1, c1 , p) - bitte die binomischen Wahrscheinlichkeit Formel siehe hier

L (c2) = Die Wahrscheinlichkeit, w im Hintergrund zu beobachten = die Wahrscheinlichkeit, c2 zu erreichen, wenn N2 Wörter vorhanden sind, unter der Annahme, dass die Wahrscheinlichkeit p b ist (N2, c2, p)

Für Hypothese 2 können wir stattdessen p1 und p2 verwenden.

Jetzt wollen wir wissen, welche Hypothese wahrscheinlicher ist; Wir müssen einige vergleichen, wie ein Ausgabewert aus jeder Hypothese verglichen wird.

Aber jede Hypothese hat 2 Werte, L (c1) und L (c2). Wie können wir vergleichen, welche Hypothese wahrscheinlicher ist? --- Wir multiplizieren sie miteinander, um eine einwertige Ausgabe zu erzielen. (weil es analog zur Geometrie ist, denke ich)

— Tanin
quelle

In Ihren Artikeln sind p, p1 und p2 Schätzungen von p, p1 und p2, richtig?

— Xi'an

Ja das ist richtig. Statistisch gesehen sind dies die Schätzungen der maximalen Wahrscheinlichkeit angesichts der Probendaten und der Binomialverteilung.

— Tanin

Danke übrigens für den Hinweis. Ich habe die Antwort verbessert.

— Tanin