Condor, OGE und Torque können Sie alle dahin bringen, aber nur Condor verfügt mit seinem DAGMan-Tool über ein integriertes Abhängigkeitsmanagement . Mit DAGMan können Sie ein gerichtetes, azyklisches Diagramm erstellen , das Ihren Arbeitsablauf beschreibt, und der Manager kümmert sich darum, die Jobs in Ihrem Arbeitsablauf zu durchlaufen und die Bestehen- / Nichtbestehen-Ergebnisse bei jedem Schritt im Arbeitsablauf zu bewerten. Condor ist relativ plattformunabhängig, was bedeutet, dass DAGMan dies auch ist. Unter AIX kann auf jeden Fall ein untergeordneter Schritt ausgeführt werden, wenn der übergeordnete Schritt unter Linux oder Windows ausgeführt wird. DAGMan kümmert sich nicht darum, wo Jobs ausgeführt werden, nur darum, ob Exit-Codes erfolgreich sind oder nicht.
Irgendwelche Tipps zur Auswahl der Software oder ob es besser ist, Open Source oder kommerziell zu gehen?
Mit ein paar Einschränkungen denke ich, dass es sich lohnt, sich die freien Communities in diesem Bereich anzusehen.
OGE ist jetzt in einem seltsamen Raum. Es ist nicht mehr kostenlos, die von Oracle produzierte GE-Variante auszuführen, und Oracle steuert keinen Code mehr bei, den es in den GE-SCC zurückschreibt. Es gibt jedoch mehrere Code-Forkes, die versuchen, als freie Open-Source-Projekte zu agieren. Vor allem Univa hat die Aufgabe übernommen , Ex-Sun-GE-Entwickler einzustellen, die weiterhin an einer frei verfügbaren Open-Source-GE-Variante arbeiten. Die Grid Engine bietet zwei Vorteile: Sie ist einfach einzurichten und kann Aufträge mit kurzer Laufzeit (<2 Minuten) verarbeiten, ohne dass der Zeitaufwand für die Aufträge, die den Durchsatz verlangsamen, erheblich ist. Der große Nachteil ist, dass Windows nicht sehr gut unterstützt wird. Einige von uns haben vor vielen Jahren einige Anstrengungen unternommen, um es für Cygwin zu portieren, aber es ist nicht so gut wie einheimisch, das ist sicher.
Nun ist Condor mein Favorit unter den drei Technologien, die Sie erwähnt haben. Es gibt eine starke Community um Condor und die Software ist sehr ausgereift (> 20 Jahre alt). Die native Unterstützung von Windows und POSIX OS bedeutet, dass es überall sehr gut läuft. Der oben erwähnte DAGMan ist nur eines der vielen großartigen Stücke, die mit Condor geliefert werden. Das Einrichten kann ein bisschen kompliziert sein, aber sobald es läuft, ist es absolut stabil. Es verfügt über eine unglaublich flexible Sprache, mit der Sie den Job <-> maschinellen Abgleich durchführen und Ihre Verwendungsregeln für Ihre Ressourcen erstellen können. Darüber hinaus wird die dynamische Bereitstellung auf Computern unterstützt, sodass Jobs auswählen können, wie viele Maschinenressourcen sie benötigen, und der Unterschied als noch verfügbar angezeigt wird. Es unterstützt globale Ressourcenzähler, sodass Sie sich auf Dinge wie Softwarelizenzen beschränken können. Und natürlich, Es verfügt über DAGMan, ein unglaublich leistungsfähiges Tool für das Workflow-Management. Der Nachteil von Condor besteht darin, dass der Planungsaufwand für kurzfristige Aufträge sehr hoch sein kann. Sie möchten Jobs, die idealerweise länger als 2 Minuten ausgeführt werden, da sonst die Planung einen großen Teil der Jobzeit im System ausmacht.
Drehmoment ist ein bisschen mehr Nische. Ich fürchte, ich weiß weniger darüber. Es vergleicht mehr mit Grid Engine als mit Condor. Es gibt kostenpflichtige Add-Ons, die @warren erwähnt hat und die erweitern können, was das grundlegende, freie Drehmoment leisten kann.
Wenn Sie die drei Technologien ausprobieren möchten und sehen möchten, wie sie mit Ihren spezifischen Workloads funktionieren, kann CycleCloud sichere, virtualisierte Pools aufbauen, die mit Condor, GridEngine oder Torque vorkonfiguriert sind Ihrerseits. Es wäre ein paar Dollar wert, kleine Pools für jede Technologie aufzubauen und sie mit repräsentativen Workloads zu testen. (Haftungsausschluss: Ich arbeite für Cycle Computing, wir machen CycleCloud)