Wurde die nach dem neuesten Stand der Technik gemeldete Leistung bei der Verwendung von Absatzvektoren für die Stimmungsanalyse wiederholt?

Ich war beeindruckt von den Ergebnissen des ICML-Papiers 2014 " Distributed Representations of Sentences and Documents " von Le und Mikolov. Die beschriebene Technik, "Absatzvektoren" genannt, lernt unbeaufsichtigte Darstellungen von beliebig langen Absätzen / Dokumenten, basierend auf einer Erweiterung des word2vec-Modells. Der Aufsatz berichtet über die neuesten Erkenntnisse zur Stimmungsanalyse mit dieser Technik.

Ich hatte gehofft, diese Technik in Bezug auf andere Textklassifizierungsprobleme als Alternative zu der herkömmlichen Darstellung mit vielen Wörtern zu bewerten. Ich bin jedoch auf einen Beitrag des zweiten Autors in einem Thread der word2vec Google-Gruppe gestoßen, der mir eine Pause verschaffte:

Ich habe mich bemüht, die Ergebnisse von Quoc im Sommer zu reproduzieren. Ich konnte Fehlerraten im IMDB-Dataset zwischen 9,4% und 10% erzielen (je nachdem, wie gut die Textnormalisierung war). Allerdings konnte ich nicht annähernd das erreichen, was Quoc in der Zeitung berichtete (7,4% Fehler, das ist ein großer Unterschied) ... Natürlich haben wir Quoc auch nach dem Code gefragt; er hat versprochen, es zu veröffentlichen, aber bisher ist nichts passiert. ... Ich fange an zu glauben, dass die Ergebnisse von Quoc tatsächlich nicht reproduzierbar sind.

Hat jemand schon Erfolg gehabt, diese Ergebnisse zu reproduzieren?

— bskaggs
quelle

Hat sich diese Situation schon geändert? Ich weiß, dass Gensim eine Version von doc2vec (Absatz- / Dokumentvektoren) implementiert hat, siehe: radimrehurek.com/gensim/models/doc2vec.html, aber keinen Versuch, die Ergebnisse in dem hier zitierten Artikel zu reproduzieren.

— Doctorambient

Ja, es wurden Versuche unternommen, die Papierergebnisse mit gensim zu reproduzieren. Weitere Informationen finden Sie im doc2vec IPython-Notizbuch .

— Radim

Fußnote unter http://arxiv.org/abs/1412.5335 (einer der Autoren ist Tomas Mikolov) sagt

Um den Ergebnissen von (Le & Mikolov, 2014) zu entsprechen, folgten wir in unseren Experimenten dem Vorschlag von Quoc Le, hierarchischen Softmax anstelle negativer Stichproben zu verwenden. Dies führt jedoch nur dann zu einer Genauigkeit von 92,6%, wenn die Trainings- und Testdaten nicht gemischt werden. Daher betrachten wir dieses Ergebnis als ungültig.

— Mikhail Korobov
quelle

Ich verstehe nicht, warum "nicht gemischt" ==> ungültig ist. Gibt es keine klar definierte Aufteilung zwischen Zug / Test-Set? Was also Zug / Test ist, hängt davon ab, wie Sie den (Original-) Datensatz mischen. Die Reihenfolge des Test-Sets sollte keine Rolle spielen (es gibt keine dynamische Auswertung, oder?). Und die Reihenfolge des Trainingssatzes sollte auch keine Rolle spielen ...

— capybaralet

@ user2429920 Wenn es Unterschiede gibt, spielt die Reihenfolge natürlich eine Rolle.

— JAB