Ich versuche, eine Big-Data-Infrastruktur unter anderem mit Hadoop, Hive und Elastic Search einzurichten, und möchte einige Algorithmen für bestimmte Datensätze ausführen. Ich möchte, dass die Algorithmen selbst skalierbar sind, daher ist die Verwendung von Tools wie Weka, R oder sogar RHadoop ausgeschlossen. Die Apache Mahout Library scheint eine gute Option zu sein und bietet Algorithmen für Regressions- und Clustering-Aufgaben .
Was ich nur schwer finden kann, ist eine Lösung für die Erkennung von Anomalien oder Ausreißern.
Da Mahout Hidden-Markov-Modelle und eine Vielzahl von Clustering-Techniken (einschließlich K-Means) enthält, habe ich mich gefragt, ob es möglich wäre, ein Modell zur Erkennung von Ausreißern in Zeitreihen zu erstellen. Ich wäre dankbar, wenn mir jemand, der Erfahrung damit hat, einen Rat geben könnte
- wenn es möglich ist und falls es möglich ist
- wie es geht, plus
- eine Schätzung des Aufwandes und
- Genauigkeit / Probleme dieses Ansatzes.