Wie gehe ich mit einem Nullfaktor bei der Berechnung des Naive Bayes-Klassifikators um?

Wenn ich einen Trainingsdatensatz habe und einen Naive Bayes-Klassifikator darauf trainiere und einen Attributwert mit der Wahrscheinlichkeit Null habe. Wie gehe ich damit um, wenn ich später die Klassifizierung für neue Daten vorhersagen möchte? Das Problem ist, wenn es eine Null in der Berechnung gibt, wird das gesamte Produkt zu Null, egal wie viele andere Werte ich habe, die vielleicht eine andere Lösung finden würden.

Beispiel:

$P(x|spam=yes) = P(TimeZone = US | spam=yes) \cdot P(GeoLocation = EU | spam = yes) \cdot ~ ... ~ = 0.004$

$P(x|spam=no) = P(TimeZone = US | spam=no) \cdot P(GeoLocation = EU | spam = no) \cdot ~ ... ~ = 0$

Das gesamte Produkt wird zu da in den Trainingsdaten das Attribut TimeZone US in unserem kleinen Trainingsdatensatz immer Ja lautet. Wie kann ich damit umgehen? Sollte ich einen größeren Satz von Trainingsdaten verwenden oder gibt es eine andere Möglichkeit, dieses Problem zu lösen? $0$

classification naive-bayes-classifier

— fragant
quelle

Wenn ein diskreter Attributwert auftritt, kann seine Wahrscheinlichkeit per Definition nicht null sein.

— Paul

warum wir 1 in 0 Frequenzproblem hinzufügen, was ist die Logik dahinter, warum wir nicht eine andere Zahl hinzufügen.

— Aftab Hussaiin

Ein Ansatz zur Überwindung dieses „Null-Frequenz-Problems“ in einer Bayes'schen Einstellung besteht darin, für jede Attributwert-Klassen-Kombination eine zur Anzahl hinzuzufügen, wenn nicht bei jedem Klassenwert ein Attributwert auftritt. Angenommen, Ihre Trainingsdaten sahen folgendermaßen aus:

\begin{array}{ccc} Spam = y e s & Spam = n o \\ TimeZone = U S & 10 & 5 \\ TimeZone = E U & 0 & 0 \end{array}

$\begin{array}{c|c|c|} & \text{Spam} = yes & \text{Spam} = no \\ \hline \text{TimeZone} = US & 10 & 5 \\ \hline \text{TimeZone} = EU & 0 & 0 \\ \hline \end{array}$

$P(\text{TimeZone} = US | \text{Spam} = yes) = \frac{10}{10} = 1$

$P(\text{TimeZone} = EU | \text{Spam} = yes) = \frac{0}{10} = 0$

Dann sollten Sie zu jedem Wert in dieser Tabelle einen hinzufügen, wenn Sie ihn zur Berechnung der Wahrscheinlichkeiten verwenden:

\begin{array}{ccc} Spam = y e s & Spam = n o \\ TimeZone = U S & 11 & 6 \\ TimeZone = E U & 1 & 1 \end{array}

$\begin{array}{c|c|c|} & \text{Spam} = yes & \text{Spam} = no \\ \hline \text{TimeZone} = US & 11 & 6 \\ \hline \text{TimeZone} = EU & 1 & 1 \\ \hline \end{array}$

$P(\text{TimeZone} = US | \text{Spam} = yes) = \frac{11}{12}$

$P(\text{TimeZone} = EU | \text{Spam} = yes) = \frac{1}{12}$

— timleathart
quelle

Tatsächlich. Beachten Sie, dass Sie manchmal andere Werte als einen hinzufügen können. Für Details siehe en.wikipedia.org/wiki/Additive_smoothing

— DaL