Ich habe 40000 Zeilen Textdaten der Gesundheitsdomäne. Daten haben eine Spalte für Text (2-5 Sätze) und eine Spalte für ihre Kategorie. Ich möchte das in 300 Kategorien einteilen. Einige Kategorien sind unabhängig, während andere etwas verwandt sind. Die Verteilung der Daten auf die Kategorien ist ebenfalls nicht einheitlich, dh einige der Kategorien (etwa 40 von ihnen) haben weniger Daten über 2-3 Zeilen.
Ich füge die Protokollwahrscheinlichkeit jeder Klasse / Kategorie hinzu. (ODER Verteilung der Klassen) hier.