Ich denke, die besten Antworten sind diejenigen, die an Spark arbeiten. Also, von Learning Spark
Beginnen Sie mit einem eigenständigen Cluster, wenn es sich um eine neue Bereitstellung handelt. Der Standalone-Modus ist am einfachsten einzurichten und bietet fast dieselben Funktionen wie die anderen Cluster-Manager, wenn Sie nur Spark ausführen.
Wenn Sie Spark zusammen mit anderen Anwendungen ausführen oder umfangreichere Ressourcenplanungsfunktionen (z. B. Warteschlangen) verwenden möchten, bieten sowohl YARN als auch Mesos diese Funktionen. Von diesen wird YARN wahrscheinlich in vielen Hadoop-Distributionen vorinstalliert sein.
Ein Vorteil von Mesos gegenüber dem YARN- und dem Standalone-Modus ist die fein abgestimmte Freigabeoption, mit der interaktive Anwendungen wie die Spark-Shell die CPU-Zuordnung zwischen Befehlen verkleinern können. Dies macht es attraktiv in Umgebungen, in denen mehrere Benutzer interaktive Shells ausführen.
In allen Fällen ist es am besten, Spark auf denselben Knoten wie HDFS auszuführen, um einen schnellen Zugriff auf den Speicher zu erhalten. Sie können Mesos oder den eigenständigen Cluster-Manager manuell auf denselben Knoten installieren, oder die meisten Hadoop-Distributionen installieren YARN und HDFS bereits zusammen.