Skalierbare Ausreißer- / Anomalieerkennung


10

Ich versuche, eine Big-Data-Infrastruktur unter anderem mit Hadoop, Hive und Elastic Search einzurichten, und möchte einige Algorithmen für bestimmte Datensätze ausführen. Ich möchte, dass die Algorithmen selbst skalierbar sind, daher ist die Verwendung von Tools wie Weka, R oder sogar RHadoop ausgeschlossen. Die Apache Mahout Library scheint eine gute Option zu sein und bietet Algorithmen für Regressions- und Clustering-Aufgaben .

Was ich nur schwer finden kann, ist eine Lösung für die Erkennung von Anomalien oder Ausreißern.

Da Mahout Hidden-Markov-Modelle und eine Vielzahl von Clustering-Techniken (einschließlich K-Means) enthält, habe ich mich gefragt, ob es möglich wäre, ein Modell zur Erkennung von Ausreißern in Zeitreihen zu erstellen. Ich wäre dankbar, wenn mir jemand, der Erfahrung damit hat, einen Rat geben könnte

  1. wenn es möglich ist und falls es möglich ist
  2. wie es geht, plus
  3. eine Schätzung des Aufwandes und
  4. Genauigkeit / Probleme dieses Ansatzes.

1
Dies ist zu vage, um beantwortet zu werden. Zeitreihen sind zu unterschiedlich, um nur k-Mittel auf sie zu werfen und irgendetwas Nützliches herauszuholen. Es hängt stark von Ihren Daten ab.
Hat aufgehört - Anony-Mousse

1
Schauen Sie sich zur Erkennung von Ausreißern die Algorithmen in ELKI an. Dies scheint die vollständigste Sammlung der Ausreißererkennung zu sein.
Hat aufgehört - Anony-Mousse

In den neueren Elasticsearch-Versionen ist die Erkennung von Zeitreihenanomalien integriert (ich denke, Sie müssen das X-Pack kaufen). Ich bin nicht sicher, welche Algorithmen sie verwenden, aber es könnte sich lohnen, eine Standardlösung zu untersuchen.
Tom

Antworten:


7

Wie vergleicht sich t-Digest mit dem p-Quadrat-Algorithmus?
David Marx

Vielen Dank für die Antwort: Dies ist ein einfaches Modell zur Berechnung extremer Quantile, und ich denke, es wird meinen Anforderungen entsprechen. Für komplexere Zeitreihen, die keine nahezu stationäre Verteilung haben, kann dieser Ansatz jedoch fehlschlagen, und dann würden wir meiner Meinung nach etwas Adaptives wie eine Markov-Kette benötigen.
Doppelbyte

0

Sie können sich auf meine Antwort beziehen, die sich auf die Methode zur Erkennung von H2O R- oder Python-Anomalien in Stackexchange bezieht , da diese ebenfalls skalierbar ist.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.