Kaskadierter Fehler im Apache-Sturm

Einer der Gründe für die gemeinsame Verwendung von Storm- und Hadoop-Clustern in Summingbird ist, dass die Verarbeitung durch Storm zu einer Kaskadierung von Fehlern führt. Um diese Kaskadierung von Fehlern und deren Anhäufung zu vermeiden, wird der Hadoop-Cluster verwendet, um die Daten stapelweise zu verarbeiten und die Storm-Ergebnisse zu verwerfen, nachdem dieselben Daten von Hadoop verarbeitet wurden.

Was sind die Gründe für die Entstehung dieser Fehlerakkumulation? und warum ist es in Hadoop nicht vorhanden? Da ich nicht mit Storm gearbeitet habe, kenne ich die Gründe dafür nicht. Liegt es daran, dass Storm einen ungefähren Algorithmus verwendet, um die Daten zu verarbeiten, um sie in Echtzeit zu verarbeiten? oder ist die ursache etwas anderes?

bigdata apache-hadoop

— mbbce
quelle

Twitter verwendet Storm für die Echtzeitverarbeitung von Daten. Probleme können mit Echtzeitdaten auftreten. Systeme könnten ausfallen. Daten werden möglicherweise versehentlich zweimal verarbeitet. Netzwerkverbindungen können verloren gehen. In einem Echtzeitsystem kann viel passieren.

Sie verwenden Hadoop, um historische Daten zuverlässig zu verarbeiten. Ich kenne keine Einzelheiten, aber zum Beispiel ist das Abrufen solider Informationen aus aggregierten Protokollen wahrscheinlich zuverlässiger als das Anhängen an den Stream.

Wenn sie sich einfach für alles auf Storm verlassen würden, hätte Storm Probleme, da Echtzeitinformationen in großem Maßstab bereitgestellt werden. Wenn sie sich bei allem auf Hadoop verlassen, ist eine Menge Latenz erforderlich. Die Kombination der beiden mit Summingbird ist der nächste logische Schritt.

— Steve Kallestad
quelle