Warum verwendet niemand den multinomialen Bayes-Klassifikator Naive Bayes?


15

In der (unbeaufsichtigten) Textmodellierung ist Latent Dirichlet Allocation (LDA) eine Bayes-Version der probabilistischen latenten semantischen Analyse (PLSA). Im Wesentlichen hat LDA = PLSA + Dirichlet Vorrang vor seinen Parametern. Nach meinem Verständnis ist LDA jetzt der Referenzalgorithmus und wird in verschiedenen Paketen implementiert, während PLSA nicht mehr verwendet werden sollte.

Bei der (überwachten) Textkategorisierung könnten wir jedoch genau dasselbe für den multinomialen Naive Bayes-Klassifikator tun und ein Dirichlet vor die Parameter setzen. Aber ich glaube, ich habe noch nie jemanden gesehen, der das getan hat, und die "Point Estimate" -Version von multinomial Naive Bayes scheint die Version zu sein, die in den meisten Paketen implementiert ist. Gibt es einen Grund dafür?

Antworten:


7

Hier ist eine schöne Abhandlung, die einige der "systemischen" Mängel des Multinomial Naive Bayes (MNB) -Klassifikators anspricht. Die Idee ist, dass Sie die Leistung von MNB durch einige Optimierungen steigern können. Und sie erwähnen die Verwendung von (einheitlichen) Dirichlet-Priors.

Wenn Sie sich für MNB interessieren und dieses Dokument noch nicht gelesen haben, kann ich Ihnen dies nur empfehlen.

Ich habe auch eine begleitende MSc-Arbeit von derselben Person / denselben Leuten gefunden, diese aber noch nicht selbst gelesen. Sie können es überprüfen.


Der zweite Link ist tot - wahrscheinlich ist dspace.mit.edu/handle/1721.1/7074 die aktuelle Version
beldaz

5

Ich vermute, dass die meisten NB-Implementierungen die Schätzung der bedingten Wahrscheinlichkeiten mit der Laplace-Korrektur ermöglichen , die dem Bayes'schen NB-Klassifikator eine MAP-Lösung gibt (mit einem bestimmten Dirichlet-Prior). Wie @Zhubarb (+1) feststellt, wurden bereits Bayes'sche Behandlungen von NB-Klassifikatoren abgeleitet und implementiert (Rennies These / Arbeiten sind lesenswert). Die Annahme der Unabhängigkeit von NB ist jedoch fast immer falsch. In diesem Fall ist es möglicherweise nicht gut, das Modell stärker von dieser Annahme abhängig zu machen (über eine vollständige Bayes'sche Behandlung).


0

Ich glaube nicht, was Sie beschreiben, ist wahr. Die Wahrscheinlichkeitsmodelle für LDA und MNB sind unterschiedlich.

Ein Hauptunterschied zwischen den beiden besteht darin, dass im generativen Modell für LDA, wenn ein Wort gezeichnet wird, zuerst ein Thema für dieses Wort und dann ein Wort aus dieser Themenverteilung ausgewählt wird. Jedes Wort in einem Dokument kann einem anderen Thema entnommen werden.

Im generativen Modell für MNB wird dem Dokument eine Klasse zugewiesen, und alle Wörter in diesem Dokument werden aus der (gleichen) Verteilung für diese Klasse gezogen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.