Ich war beeindruckt von den Ergebnissen des ICML-Papiers 2014 " Distributed Representations of Sentences and Documents " von Le und Mikolov. Die beschriebene Technik, "Absatzvektoren" genannt, lernt unbeaufsichtigte Darstellungen von beliebig langen Absätzen / Dokumenten, basierend auf einer Erweiterung des word2vec-Modells. Der Aufsatz berichtet über die neuesten Erkenntnisse zur Stimmungsanalyse mit dieser Technik.
Ich hatte gehofft, diese Technik in Bezug auf andere Textklassifizierungsprobleme als Alternative zu der herkömmlichen Darstellung mit vielen Wörtern zu bewerten. Ich bin jedoch auf einen Beitrag des zweiten Autors in einem Thread der word2vec Google-Gruppe gestoßen, der mir eine Pause verschaffte:
Ich habe mich bemüht, die Ergebnisse von Quoc im Sommer zu reproduzieren. Ich konnte Fehlerraten im IMDB-Dataset zwischen 9,4% und 10% erzielen (je nachdem, wie gut die Textnormalisierung war). Allerdings konnte ich nicht annähernd das erreichen, was Quoc in der Zeitung berichtete (7,4% Fehler, das ist ein großer Unterschied) ... Natürlich haben wir Quoc auch nach dem Code gefragt; er hat versprochen, es zu veröffentlichen, aber bisher ist nichts passiert. ... Ich fange an zu glauben, dass die Ergebnisse von Quoc tatsächlich nicht reproduzierbar sind.
Hat jemand schon Erfolg gehabt, diese Ergebnisse zu reproduzieren?