Ich versuche, Nachrichten mithilfe einer SVM in verschiedene Kategorien zu klassifizieren. Ich habe eine Liste der gewünschten Wörter / Symbole aus dem Trainingsset zusammengestellt.
Für jeden Vektor, der eine Nachricht darstellt, setze ich die entsprechende Zeile auf, 1
wenn das Wort vorhanden ist:
"Corpus" ist: [Mary, Little, Lamm, Star, Twinkle]
erste Nachricht: "Mary hatte ein kleines Lamm" -> [1 1 1 0 0]
zweite Meldung: "Funkelnder kleiner Stern" -> [0 1 0 1 1]
Ich denke, dies ist eine bei SVM weit verbreitete Einrichtung, aber meine Frage ist, ob bei Tausenden von Wörtern im Satz nur 1-2 Wörter pro Nachricht tatsächlich angezeigt werden. Beeinträchtigt die lineare Abhängigkeit meines Satzes von Trainingsvektoren die Konvergenzfähigkeit des Algorithmus?
flexmix
- aber ich habe jetzt seit ein paar Jahren "Learn R" in meinem Kalender!