Wie arbeitet Naive Bayes mit kontinuierlichen Variablen?

14

Nach meinem (sehr grundlegenden) Verständnis schätzt Naive Bayes die Wahrscheinlichkeiten basierend auf den Klassenhäufigkeiten der einzelnen Merkmale in den Trainingsdaten. Aber wie berechnet es die Häufigkeit kontinuierlicher Variablen? Und wie klassifiziert es bei der Vorhersage eine neue Beobachtung, die möglicherweise nicht die gleichen Werte wie eine Beobachtung im Trainingssatz aufweist? Verwendet es eine Art Abstandsmaß oder findet es das 1NN?

— xyy
quelle

Hier ist ein Nebeneinander-Vergleich zwischen diskreten und kontinuierlichen Naive Bayes: datascience.stackexchange.com/a/47031/67328

— Esmailian

10

Es gibt viele Möglichkeiten, eine naive Bayes-Klassifizierung (NBC) durchzuführen. Eine übliche Technik in NBC besteht darin, die Merkmalswerte (Variablenwerte) in Quartile umzucodieren, so dass Werten, die kleiner als das 25. Perzentil sind, eine 1, 25 bis 50 a 2, 50 bis 75 a 3 und mehr als das 75. Perzentil a 4 zugewiesen wird. Somit legt ein einzelnes Objekt eine Zählung in Bin Q1, Q2, Q3 oder Q4 ab. Berechnungen werden lediglich für diese kategorialen Behälter durchgeführt. Die Anzahl der Behälter (Wahrscheinlichkeiten) basiert dann auf der Anzahl der Stichproben, deren variable Werte in einen bestimmten Behälter fallen. Wenn beispielsweise eine Reihe von Objekten für Merkmal X1 sehr hohe Werte aufweist, führt dies zu einer großen Anzahl von Behältern im Behälter für Q4 von X1. Wenn andererseits ein anderer Satz von Objekten niedrige Werte für Merkmal X1 hat, werden diese Objekte eine Menge Zählungen für Q1 von Merkmal X1 im Bin ablegen.

Es ist eigentlich keine wirklich clevere Berechnung, sondern eine Möglichkeit, kontinuierliche Werte diskret zu diskretisieren und danach auszunutzen. Der Gini-Index und der Informationsgewinn können nach der Diskretisierung leicht berechnet werden, um zu bestimmen, welche Merkmale am informativsten sind, dh max (Gini).

Beachten Sie jedoch, dass es viele Möglichkeiten gibt, NBC durchzuführen, und viele unterscheiden sich erheblich voneinander. Sie müssen also nur angeben, welche Sie in einem Vortrag oder Papier implementiert haben.

— JoleT
quelle

2

Das Herz von Naive Bayes ist die heroische bedingte Annahme:

P. (x ∣ X., C.) = P. (x ∣ C.)

$P(x \mid X, C) = P(x \mid C)$

Auf keinen Fall muss $x$ diskret sein. Zum Beispiel nimmt Gaussian Naive Bayes jede Kategorie an $C$ hat einen anderen Mittelwert und eine andere Varianz: Dichte $p(x \mid C = i) = \phi(\mu_i, \sigma^2_i)$ .

Es gibt verschiedene Möglichkeiten, die Parameter zu schätzen, aber normalerweise kann man:

Verwenden Sie die maximale Wahrscheinlichkeit für beschriftete Daten. (Bei Normalverteilung sind die Schätzungen der maximalen Wahrscheinlichkeit des Mittelwerts und der Varianz im Wesentlichen der Stichprobenmittelwert und die Stichprobenvarianz.)
So etwas wie ein EM-Algorithmus mit unbeschrifteten Daten.

— Matthew Gunn
quelle