Hochmodernes Streaming-Lernen


25

Ich habe in letzter Zeit mit großen Datenmengen gearbeitet und viele Artikel über Streaming-Methoden gefunden. Um ein paar zu nennen:

Ich konnte jedoch keine Dokumentation finden, wie sie miteinander verglichen werden. Jeder Artikel, den ich lese, scheint Experimente mit verschiedenen Datensätzen durchzuführen.

Ich weiß über Sofia-ml, Vowpal Wabbit Bescheid, aber sie scheinen sehr wenige Methoden zu implementieren, verglichen mit der riesigen Menge an existierenden Methoden!

Sind die weniger verbreiteten Algorithmen nicht performant genug? Gibt es ein Papier, in dem versucht wird, so viele Methoden wie möglich zu überprüfen?


7
Wenn nicht, sollten Sie es selbst schreiben :)
Chris C

1
Sie verstehen, dass Akademiker neue Algorithmen entwickeln müssen und nach den Datensätzen suchen, für die ihr Algorithmus die beste Leistung erbringt. Ich würde empfehlen, dass Sie nur sicherstellen, dass Sie verstehen, wie eine Bibliothek wie Vowpal-Wabbit ausgeführt wird (dh alle Parameter usw.).
Seanv507

1
Das ist eigentlich das Gegenteil! Ich habe verstanden, dass die Leute den besten Datensatz ausgewählt haben und im Allgemeinen relativ leise darüber sind, wie sie die Algorithmen (sowohl ihre als auch die konkurrierenden Methoden) gegenseitig validieren. Ich suche eher eine Streaming-Version von jmlr.org/papers/volume15/delgado14a/delgado14a.pdf
RUser4512

1
Wirklich wie das JMLR-Papier, das Sie verlinkt haben. Ich selbst kenne also keinen ähnlichen Vergleich für Streaming-Algorithmen. Wahrscheinlich, weil Streaming eine größere Nische darstellt und weil es zwar schwierig ist, Klassifikatoren für statische Datensätze zu vergleichen, es jedoch noch schwieriger ist, einen fairen Vergleich für Streaming-Daten vorzunehmen.
stats0007

1
Obwohl diese Ihre Frage nicht speziell beantworten, sind zwei verwandte Ressourcen: Evaluierung von Algorithmen, die aus Datenströmen lernen von Gama et al., In denen Evaluierungstechniken erörtert werden, und MOA (Massive Online Analysis) , ein Open Source-Framework für Data Stream Mining, das Datenströme enthält die Fähigkeit, die Leistung zu bewerten.
user77876

Antworten:


1

Eine genaue Übersicht über mehrere Algorithmen, die dem von Ihnen verlinkten Delgado-Artikel ähneln, ist meines Wissens nicht verfügbar, es wurden jedoch Anstrengungen unternommen, um Ergebnisse für Algorithmenfamilien zu sammeln.

Hier sind einige Quellen, die ich nützlich finde (Haftungsausschluss: Ich veröffentliche in der Region, daher bin ich in meiner Auswahl wahrscheinlich voreingenommen):

Einige Software-Pakete:

Ich kann bei Bedarf weitere Informationen und Quellen hinzufügen. Wie andere gesagt haben, könnte das Feld eine umfassende Umfrage verwenden.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.