Für den Anfang ist Naive Bayes hier wahrscheinlich nicht geeignet. Es setzt Unabhängigkeit zwischen den Eingaben voraus (daher die "Naive") und Wörter in einem Satz sind sehr abhängig.
Angenommen, Sie möchten wirklich mit NB als Algorithmus arbeiten, um Ihre Experimente zu starten, gibt es zwei Optionen, die ich in Betracht ziehen würde:
Ungraceful: Viele NB-Klassifikatoren
Dies wäre ein alternativer Ansatz. Machen Sie einen Korupus aller Wörter, die als Ihr Eingabevektor beobachtet werden. Machen Sie einen Korpus aus allen Tags, die als Ihr Ausgabevektor beobachtet werden. Ein NB-Klassifizierer mit mehreren Ausgängen entspricht mehreren NB-Klassifizierern mit jeweils einem Ausgang (tun Sie also, was in dem von Ihnen verwendeten Software-Framework einfacher zu implementieren ist). Behandeln Sie jedes Element als Trainingsbeispiel, bei dem eine bestimmte Eingabe (ein Wort) ein 1
Wenn dieses Wort vorhanden ist und ein 0
Wenn dieses Wort nicht vorhanden ist. Verwenden Sie für die Ausgabe dasselbe Binärschema.
Dieser Rohling erzwingt die Anwendung des NB-Klassifikators auf Ihre Daten und lässt Sie einen Sinn finden, indem Sie immer noch die riesige Menge an Klassifikatoren abbauen müssen, die Ihnen übrig bleiben.
Anmutiger: Verarbeiten Sie Ihre Daten
Dies ist der Ansatz, den ich empfehlen würde, wenn Sie mit einem NB-Klassifikator mit mehreren Klassen arbeiten möchten.
Ihr Ziel hier ist es, herauszufinden, wie Sie jeden Satz von Tags einer einzelnen Klasse zuordnen können. Ich bin mir sicher, dass es eine Art Clustering-Schema oder eine Netzwerkanalyse gibt (vielleicht könnte ["Berühmtheit"] im Zusammenhang mit ["Mord"] zu einem Segment ["Ausschweifung"] werden), das Ihre Tags sinnvoll einem einzelnen Cluster zuordnet. Wenn Sie Tags als Knoten und zwei vorgegebene Tags zusammen als Links behandeln, sollten Sie sich mit Community-Erkennungsalgorithmen befassen (hier würde ich beginnen). Wenn Sie jedoch nur möchten, dass etwas funktioniert, reicht eine Art Hack auf die Tags aus, mit dem eine Liste von Tags nur in das Tag konvertiert wird, das in Ihrem Dataset am häufigsten vorkommt.
Diese Methode lädt die Arbeit zum Bereinigen Ihrer Daten vor und erleichtert das Verständnis der Ausgabe des NB-Klassifikators.