Direkt aus dem Maul des Pferdes :
Hadoop ist ein Framework zum Ausführen von Anwendungen auf großen Clustern, die aus Standardhardware bestehen. Das Hadoop-Framework bietet Anwendungen auf transparente Weise sowohl Zuverlässigkeit als auch Datenbewegung. Hadoop implementiert ein Rechenparadigma namens Map / Reduce, bei dem die Anwendung in viele kleine Arbeitsfragmente unterteilt ist, von denen jedes auf einem beliebigen Knoten im Cluster ausgeführt oder erneut ausgeführt werden kann. Darüber hinaus wird ein verteiltes Dateisystem (HDFS) bereitgestellt, das Daten auf den Rechenknoten speichert und eine sehr hohe Gesamtbandbreite im gesamten Cluster bietet. Sowohl Map / Reduce als auch das verteilte Dateisystem sind so konzipiert, dass Knotenfehler automatisch vom Framework behandelt werden.
Map / Reduce ist ein von Google verbreitetes Programmierparadigma, bei dem eine Aufgabe in kleine Teile aufgeteilt und zur Verarbeitung auf eine große Anzahl von Knoten verteilt wird (Map). Die Ergebnisse werden dann zur endgültigen Antwort zusammengefasst (Reduce) ). Google und Yahoo nutzen dies unter anderem für ihre Suchmaschinentechnologie.
Hadoop ist ein allgemeines Framework für die Implementierung dieser Art von Verarbeitungsschema. Was den Grund angeht, warum es nicht gut läuft, vor allem, weil es nette Funktionen wie Fehlertoleranz bietet und Sie so ziemlich jede Art von Hardware zusammenbringen können, um die Verarbeitung durchzuführen. Es lässt sich auch sehr gut skalieren, vorausgesetzt, Ihr Problem passt zum Paradigma.
Sie können alles darüber auf der Website lesen .
Als Beispiel hat Paul ein paar gegeben, aber hier sind ein paar mehr, die Sie machen könnten, die nicht so weborientiert sind:
- 3D-Film rendern. Der "Karten" -Schritt verteilt die Geometrie für jeden Frame auf einen anderen Knoten, die Knoten rendern sie und die gerenderten Frames werden im "Reduzieren" -Schritt neu kombiniert.
- Berechnung der Energie in einem System in einem molekularen Modell. Jeder Frame einer Systemtrajektorie wird im Schritt "Map" an einen Knoten verteilt. Die Knoten berechnen die Energie für jeden Rahmen
und dann werden die Ergebnisse im Schritt "Reduzieren" zusammengefasst.
Im Wesentlichen funktioniert das Modell sehr gut für ein Problem, das in ähnliche diskrete Berechnungen zerlegt werden kann, die vollständig unabhängig sind und zu einem Endergebnis rekombiniert werden können.