Ich habe in letzter Zeit mit großen Datenmengen gearbeitet und viele Artikel über Streaming-Methoden gefunden. Um ein paar zu nennen:
- Follow-the-Regularized-Leader und Mirror-Descent: Äquivalenzsätze und L1-Regularisierung ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- Gestreamtes Lernen: SVMs mit einem Durchgang ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos: Primal Estimated sub-GrAdient SOlver für SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- oder hier: Kann SVM das Lernen eines Beispiels nach dem anderen streamen?
- Zufällige Wälder streamen ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
Ich konnte jedoch keine Dokumentation finden, wie sie miteinander verglichen werden. Jeder Artikel, den ich lese, scheint Experimente mit verschiedenen Datensätzen durchzuführen.
Ich weiß über Sofia-ml, Vowpal Wabbit Bescheid, aber sie scheinen sehr wenige Methoden zu implementieren, verglichen mit der riesigen Menge an existierenden Methoden!
Sind die weniger verbreiteten Algorithmen nicht performant genug? Gibt es ein Papier, in dem versucht wird, so viele Methoden wie möglich zu überprüfen?