Mit welchen frei verfügbaren Datensätzen kann ich einen Textklassifizierer trainieren?
Wir versuchen, das Engagement unserer Benutzer zu verbessern, indem wir ihm den verwandtesten Inhalt empfehlen. Daher dachten wir, wenn wir unseren Inhalt anhand einer vordefinierten Worttasche klassifizieren, können wir ihm empfehlen, Inhalte zu nutzen, indem wir sein Feedback zu einer zufälligen Anzahl bereits klassifizierter Beiträge erhalten Vor.
Wir können diese Informationen verwenden, um ihm Impulse zu empfehlen, die mit diesen Klassen gekennzeichnet sind. Wir haben jedoch festgestellt, dass der Feature-Vektor voller Nullen ist, wenn wir eine vordefinierte Worttasche verwendet haben, die nicht mit unserem Inhalt zusammenhängt. Auch Kategorien sind möglicherweise für unseren Inhalt nicht relevant. Aus diesen Gründen haben wir eine andere Lösung ausprobiert, bei der unsere Inhalte gruppiert und nicht klassifiziert werden.
Vielen Dank :)