Wie verwalten Sie Ihre Instanzen in EC2 und behandeln (z. B.) Failover, wenn Sie ihre eigenen Cluster verwalten (z. B. Amazon Autoscale, Rightscale, Scalr nicht verwenden oder nicht dafür bezahlen)? Ich frage mich, ob die meisten Leute, wie ich vermute, am Ende nur ihre eigenen Skripte gegen die EC2-API schreiben.
Das ist zweifellos unser Ansatz: Entwickeln Sie unseren eigenen Python Boto-basierten Monitoring- / Neustart-Daemon, der außerhalb des Standorts ausgeführt wird, und warten Sie auf UDP-Keep-Alives von unseren Instanzen. Bei einem Fehler erstellen wir eine Momentaufnahme der Volumes, registrieren Images, starten neue Instanzen, löschen alte Volumes und so weiter.
Ab und zu denke ich, dass es beim Hacken unserer Skripte einige Open-Source-Tools geben muss, die sich bereits mit diesen Problemen befassen und die nicht den Einschränkungen von (etwa) Scalr unterliegen, aber ich komme immer von Google zurück mit leeren Händen. (Dinge wie Scalr sind in den unterstützten Sätzen / Versionen / Konfigurationen von Software ziemlich begrenzt und haben spezielle und umständliche Möglichkeiten, diese Setups zu manipulieren.)
Auch das Linux-HA / Pacemaker-Ökosystem (Heartbeat, ldirectord usw.) scheint für EC2 nicht wirklich geeignet zu sein . (Aber dann fand ich das - obwohl ich nicht sicher bin, ob dies wirklich eine qualitativ hochwertige Lösung ist).