Naive Bayes-Feature-Wahrscheinlichkeiten: Soll ich Wörter doppelt zählen?

12

Ich erstelle einen Prototyp meines eigenen Naive Bayes-Modells und hatte eine Frage zur Berechnung der Merkmalswahrscheinlichkeiten.

Nehmen wir an, ich habe zwei Klassen, ich verwende nur Spam und nicht Spam, da dies von allen verwendet wird. Nehmen wir als Beispiel das Wort "viagra". Ich habe 10 E-Mails in meinem Trainingsset, 5 Spam- und 5 Nicht-Spam-Mails. "viagra" erscheint in allen 5 Spam-Dokumenten. In einem der Schulungsunterlagen ist es dreimal enthalten (darum geht es in meiner Frage), das sind also insgesamt 7 Spam-Einträge. Im Nicht-Spam-Trainingssatz wird es einmal angezeigt.

Wenn ich p (viagra | spam) abschätzen will, ist es einfach:

p (viagra | spam) = 5 Spam-Dokumente enthalten viagra / 5 Spam-Dokumente insgesamt = 1

Mit anderen Worten, spielt es keine Rolle, dass ein Dokument viagra dreimal anstatt einmal erwähnt hat?

Bearbeiten: Hier ist ein Blog-Beitrag, in dem der Autor den Ansatz verwendet, den ich gerade dargelegt habe: http://ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/

Und hier ist ein Blog-Beitrag, in dem der Autor sagt: p (viagra | spam) = 7 viagra-Spam-Erwähnungen / 8 Erwähnungen insgesamt http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply -Naive-Bayes-Klassifikatoren-zu-Dokument-Klassifikationsproblemen

Und dann lautet eine der folgenden Antworten: p (viagra | spam) = 7 viagra-Erwähnungen in Spam / Gesamtzahl der Begriffe in Spam

Kann jemand auf eine Quelle verlinken, die eine Meinung dazu abgibt?

classification conditional-probability naive-bayes

— user24885
quelle

4

Mit anderen Worten, spielt es keine Rolle, dass ein Dokument viagra dreimal anstatt einmal erwähnt hat?

Es ist wichtig. Das multinomiale Naive-Bayes-Modell berücksichtigt jedes Vorkommen eines Tokens, während das Bernoulli-Naive-Bayes-Modell dies nicht tut (dh bei letzterem Modell sind 3 Vorkommen von "viagra" gleichbedeutend mit 1 Vorkommen von "viagra").

Hier sind zwei Abbildungen sowie eine Vergleichstabelle von {1}:

{1} führt Naive Bayes für die Textklassifizierung sowie das Multinomial Naive Bayes-Modell und das Bernoulli Naive Bayes-Modell ein.

Verweise:

{1} Christopher D. Manning, Prabhakar Raghavan und Hinrich Schütze. " Introduction to Information Retrieval. " 2009, Kapitel 13 Textklassifikation und Naive Bayes .

— Franck Dernoncourt
quelle

1

Dies hängt von dem spezifischen naiven Modell ab, das Sie anwenden. Im Allgemeinen möchten Sie bei der Textklassifizierung die Wiederholung von Begriffen in Betracht ziehen, daher lautet die Antwort "Ja".

Der andere Punkt ist, dass Sie die Wahrscheinlichkeit basierend auf dem Dokumentereignisbereich berücksichtigen. Sie können dies auch basierend auf dem Begriff Raum tun:

p (viagra | spam) = 5 mal Spam-Begriff in der Klasse Spam / 50 Begriffe in der Klasse

Sie haben viele Informationen in diesem [Papier] ( http://echo.edres.org:8080/betsy/mccallum1.pdf )

— Miguelmalvarez
quelle

0

Ich denke, es hängt davon ab, was genau Sie mit p (viagra | spam) meinen und wie Sie die Daten modellieren.

Wie geschrieben würde ich Ihre Bedeutung als "die Wahrscheinlichkeit, dass das Wort Viagra mindestens einmal in einer Nachricht erwähnt wird, vorausgesetzt, diese Nachricht ist Spam" interpretieren. In diesem Fall hat die Tatsache, dass ein Dokument viagra dreimal erwähnt hat, keine Auswirkung. Sie haben ein Modell definiert, das solche Tatsachen nicht berücksichtigt.

Natürlich könnten Sie ein anderes Modell haben. Anstatt dass Viagra durch eine binäre Variable dargestellt wird (anwesend / abwesend), könnte es beispielsweise die Anzahl der Male darstellen, die das Wort in der Nachricht erscheint. In diesem Fall würden Sie aus Ihren Rohdaten eine empirische Häufigkeit von etwa schätzen

p (viagra = 0 | Spam) = 0

p (viagra = 1 | Spam) = 4/5

p (viagra = 2 | Spam) = 0

p (viagra = 3 | Spam) = 1/5

etc.

Ich sage nicht, dass das ein besserer Weg ist. Ich zeige nur eine alternative Situation, in der Ihre Intuition, dass das dreimal erwähnte Viagra relevant ist, zutreffend ist.

Ein praktischeres Beispiel ist der Begriff „Häufigkeit - Inverse Dokumenthäufigkeit“. Hierbei handelt es sich um eine Methode, bei der der Häufigkeit eines Worts in einem Dokument große Aufmerksamkeit geschenkt wird.

— Klopfen
quelle