Die kurze Antwort auf Ihre Frage lautet: "Die meiste Zeit wissen wir nicht, was P (Käse) ist, und es ist oft (relativ) schwierig zu berechnen."
Die längere Antwort, warum Bayes 'Regel / Theorem normalerweise so lautet, wie Sie es geschrieben haben, ist, weil wir in Bayes'schen Problemen - in unserem Schoß sitzend - eine vorherige Verteilung (das P (B) oben) und eine Wahrscheinlichkeit (das P (A | B), P (A | notB) und es ist eine relativ einfache Multiplikationssache, den hinteren Teil (das P (B | A)) zu berechnen. Die Mühe zu machen, P (A) in seiner zusammengefassten Form erneut auszudrücken, ist ein Aufwand, der an anderer Stelle aufgewendet werden könnte.
Es mag im Zusammenhang mit einer E-Mail nicht so kompliziert erscheinen, weil es, wie Sie zu Recht bemerkt haben, nur P (Käse) ist, oder? Das Problem ist, dass der Nenner bei größeren Bayes'schen Problemen auf dem Schlachtfeld ein unschönes Integral ist, das eine geschlossene Lösung haben kann oder nicht. In der Tat brauchen wir manchmal ausgefeilte Monte-Carlo-Methoden, um das Integral zu approximieren .
Um es auf den Punkt zu bringen, ist es uns normalerweise egal, was P (Käse) ist. Beachten Sie, dass wir versuchen, unsere Überzeugung zu schärfen, ob es sich bei einer E-Mail um Spam handelt oder nicht , und dass die marginale Verteilung der Daten (P (A) oben) keine Rolle spielt . Es ist ohnehin nur eine Normalisierungskonstante, die nicht vom Parameter abhängt. Der Akt der Summierung löscht alle Informationen, die wir über den Parameter hatten. Die Konstante ist lästig zu berechnen und letztendlich irrelevant, wenn es darum geht, unsere Überzeugungen, ob die E-Mails Spam sind oder nicht, auf den Prüfstand zu stellen. Manchmal sind wir gezwungen, dies zu berechnen. In diesem Fall geschieht dies am schnellsten mit den Informationen, die wir bereits haben: dem Stand und der Wahrscheinlichkeit.