Ich möchte ein System entwerfen, das einen bestimmten Textabschnitt kategorisieren und den Kontext identifizieren kann:
- Wird mit benutzergenerierten Textabschnitten (wie Kommentaren / Fragen / Antworten) geschult.
- Jeder Gegenstand im Trainingssatz wird mit markiert. Also zum Beispiel ("Kategorie 1", "Textabsatz")
- Es wird Hunderte von Kategorien geben
Was wäre der beste Ansatz, um ein solches System aufzubauen? Ich habe mir einige verschiedene Optionen angesehen und im Folgenden finden Sie eine Liste möglicher Lösungen. Ist Word2Vec / NN derzeit die beste Lösung?
- Rekursives neuronales Tensornetzwerk, das mit gemittelten Word2Vec-Daten gespeist wird
- RNTN und The Paragraph Vector ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- TF-IDF wird in einem Deep Belief Network verwendet
- TF-IDF und logistische Regression
- Wortsack und Naive Bayes Klassifizierung