Ich habe heute über die Naive Bayes-Klassifikation gelesen. Ich las unter der Überschrift Parameterschätzung mit add 1 Glättung :
Verweisen Sie mit auf eine Klasse (z. B. Positiv oder Negativ) und mit auf ein Token oder Wort.
Der Maximum - Likelihood - Schätzer für ist
Diese Schätzung von könnte problematisch sein, da sie uns die Wahrscheinlichkeit 0 geben würde für Dokumente mit unbekannten Wörtern eine . Eine gängige Methode zur Lösung dieses Problems ist die Verwendung der Laplace-Glättung.
Sei V die Wortmenge in der Trainingsmenge, füge der Wortmenge ein neues Element (für Unbekannt) hinzu.
Definiere
wo auf das Vokabular bezieht (die Wörter im Trainingssatz).
Insbesondere hat jedes unbekannte Wort die Wahrscheinlichkeit
Meine Frage lautet: Warum beschäftigen wir uns überhaupt mit dieser Laplace-Glättung? Wenn diese unbekannten Wörter, auf die wir in der Testmenge stoßen, eine Wahrscheinlichkeit haben, die offensichtlich fast Null ist, dh , was bringt es, sie in das Modell aufzunehmen? Warum nicht einfach ignorieren und löschen?