Nehmen wir für eine Aufgabe zur Stimmungsanalyse an, wir haben einige Klassen, die durch und Merkmale .
Wir können die bedingte Wahrscheinlichkeit jeder Klasse wie : wobei jedes Merkmal darstellt und die Klasse ist wir haben. Dann können wir empirisch Unsere Prioritäten für jede Klasse sind dann gegeben durch: wobei:
ist die Gesamtzahl der Features in allen Klassen.
repräsentiert die Anzahl der Zählungen dieses Merkmals in Klasse .
ist die Gesamtzahl der Features für die Klasse und
ist die Gesamtzahl der Features für alle Klassen.
Ist mein Verständnis der oben genannten richtig? dieser für jedes Wort gehe ich davon aus, dass die Wörter unabhängig sind, also multipliziere ich einfach jedes Wort in einem Dokument für eine bestimmte Klasse, dh um zu berechnen wobei die Anzahl der Wörter im Dokument ist. Ist das richtig?
Um die bedingte Wahrscheinlichkeit tatsächlich numerisch zu berechnen, würde es ausreichen, Folgendes zu tun:
Der letzte Teil der Gleichung erscheint mir etwas verdächtig, da es viel zu einfach erscheint, für eine ziemlich komplexe Wahrscheinlichkeit zu berechnen.