Warum den Nenner in Bayes 'Theorem auflösen?


23

(Ich bin ein Neuling in der Statistik. Ich bin Mathematiker und Programmierer und ich versuche, so etwas wie einen naiven Bayes-Spamfilter zu bauen.)

Ich habe an vielen Stellen bemerkt, dass die Leute dazu neigen, den Nenner in der Gleichung aus dem Bayes'schen Theorem aufzulösen. Also stattdessen:

P(EIN|B)P(B)P(EIN)

Wir bekommen folgendes präsentiert:

P(EIN|B)P(B)P(EIN|B)P(B)+P(EIN|¬B)P(¬B)

Sie können sehen, dass diese Konvention in diesem Wikipedia-Artikel und in diesem aufschlussreichen Beitrag von Tim Peters verwendet wird.

Das verblüfft mich. Warum ist der Nenner so zerlegt? Wie hilft das überhaupt? Was ist so kompliziert an der Berechnung von , was bei Spam-Filtern der Fall wäre ?P(EIN)The probability that the word "cheese" appears in an email, regardless of whether it's spam or not


Ich vermute, dass die Antwort domänenspezifisch ist (dh spezifisch für Spam-Filter). Wenn Sie die Komponenten P (A | B) usw. berechnen können, sollten Sie in der Lage sein, das einfachere P (A) wie angegeben zu berechnen. Oder vielleicht ist die Antwort auf Pädagogik bezogen, so dass die Leser die Beziehung zwischen P (A) und seiner Zerlegung in Bezug auf P (A | B), P (B) usw.

1
Ich habe keine klare Antwort, aber ich kann sagen, dass ich bei Tests dumme Fehler gemacht habe, bei denen ich Givens einfach in den expliziten Nenner hätte stecken können, aber ich dachte, ich wüsste P (A) und ich habe mich geirrt.
Wayne

Antworten:


16

Die kurze Antwort auf Ihre Frage lautet: "Die meiste Zeit wissen wir nicht, was P (Käse) ist, und es ist oft (relativ) schwierig zu berechnen."

Die längere Antwort, warum Bayes 'Regel / Theorem normalerweise so lautet, wie Sie es geschrieben haben, ist, weil wir in Bayes'schen Problemen - in unserem Schoß sitzend - eine vorherige Verteilung (das P (B) oben) und eine Wahrscheinlichkeit (das P (A | B), P (A | notB) und es ist eine relativ einfache Multiplikationssache, den hinteren Teil (das P (B | A)) zu berechnen. Die Mühe zu machen, P (A) in seiner zusammengefassten Form erneut auszudrücken, ist ein Aufwand, der an anderer Stelle aufgewendet werden könnte.

Es mag im Zusammenhang mit einer E-Mail nicht so kompliziert erscheinen, weil es, wie Sie zu Recht bemerkt haben, nur P (Käse) ist, oder? Das Problem ist, dass der Nenner bei größeren Bayes'schen Problemen auf dem Schlachtfeld ein unschönes Integral ist, das eine geschlossene Lösung haben kann oder nicht. In der Tat brauchen wir manchmal ausgefeilte Monte-Carlo-Methoden, um das Integral zu approximieren .

Um es auf den Punkt zu bringen, ist es uns normalerweise egal, was P (Käse) ist. Beachten Sie, dass wir versuchen, unsere Überzeugung zu schärfen, ob es sich bei einer E-Mail um Spam handelt oder nicht , und dass die marginale Verteilung der Daten (P (A) oben) keine Rolle spielt . Es ist ohnehin nur eine Normalisierungskonstante, die nicht vom Parameter abhängt. Der Akt der Summierung löscht alle Informationen, die wir über den Parameter hatten. Die Konstante ist lästig zu berechnen und letztendlich irrelevant, wenn es darum geht, unsere Überzeugungen, ob die E-Mails Spam sind oder nicht, auf den Prüfstand zu stellen. Manchmal sind wir gezwungen, dies zu berechnen. In diesem Fall geschieht dies am schnellsten mit den Informationen, die wir bereits haben: dem Stand und der Wahrscheinlichkeit.


Könnte jemand ein Beispiel für "ein unansehnliches Integral, das eine geschlossene Lösung haben kann oder nicht" geben, das bei einem bestimmten Problem verwendet werden würde?
PaulG

8

Ein Grund für die Verwendung der Gesamtwahrscheinlichkeitsregel besteht darin, dass wir uns häufig mit den Komponentenwahrscheinlichkeiten in diesem Ausdruck befassen und es einfach ist, die Grenzwahrscheinlichkeit durch einfaches Einfügen der Werte zu ermitteln. Eine Illustration dazu finden Sie im folgenden Beispiel auf Wikipedia:

Ein weiterer Grund ist das Erkennen gleichwertiger Formen der Bayes'schen Regel durch Manipulieren dieses Ausdrucks. Beispielsweise:

P(B|EIN)=P(EIN|B)P(B)P(EIN|B)P(B)+P(EIN|¬B)P(¬B)

Teilen Sie durch die RHS durch den Zähler:

P(B|EIN)=11+P(EIN|¬B)P(EIN|B)P(¬B)P(B)

Welches ist eine schöne äquivalente Form für Bayes 'Regel, die noch handlicher gemacht wird, indem diese vom ursprünglichen Ausdruck subtrahiert wird, um zu erhalten:

P(¬B|EIN)P(B|EIN)=P(EIN|¬B)P(EIN|B)P(¬B)P(B)

Dies ist die Bayes-Regel, die in Bezug auf die Quoten angegeben wird, dh hintere Quoten gegen B = Bayes-Faktor gegen B mal die vorherigen Quoten gegen B. (Oder Sie können sie invertieren, um einen Ausdruck in Bezug auf die Quoten für B zu erhalten.) Der Bayes-Faktor ist das Verhältnis der Wahrscheinlichkeiten Ihrer Modelle. Da wir uns über den zugrunde liegenden Mechanismus zur Datenerzeugung nicht sicher sind, beobachten wir Daten und aktualisieren unsere Überzeugungen.

Ich bin mir nicht sicher, ob Sie das nützlich finden, aber hoffentlich ist es nicht verwirrend. Sie sollten natürlich mit dem Ausdruck arbeiten, der für Ihr Szenario am besten geeignet ist. Vielleicht kann jemand anderes noch bessere Gründe anführen.


Sie können noch einen Schritt weiter gehen und Protokolle erstellen. Dann haben Sie log-posteriores Verhältnis = log-priores Verhältnis + log-Wahrscheinlichkeitsverhältnis
Wahrscheinlichkeitsislogik

6

P(EIN)

P(EIN)P(EIN|B)BP(EIN|B)P(EIN|¬B)B¬BP(EIN|B)P ( B ) P ( ¬ B ) P ( A ) = P ( A | B ) P ( B ) + P ( A | ¬ B ) P ( ¬ B )P(EIN|¬B)P(B)P(¬B) . Daher ist der endgültige Ausdruck

P(EIN)=P(EIN|B)P(B)+P(EIN|¬B)P(¬B)
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.