Nagios ist gut, es ist gut, wenn Systemtests (Selenium) regelmäßig ausgeführt werden.
Edit: Hyperic und Groundwork sehen auch interessant aus.
Es gibt wahrscheinlich ein Test-Suite-System, mit dem Sie auch weiterhin alles unter Druck testen können. Ich kann mich nicht an den Namen erinnern, vielleicht kann jemand unten einen erwähnen.
Andere Dinge, die ich gerne mache:
Das beste Motto für die Infrastruktur lautet immer reparieren, erkennen, reparieren. Steh auf, gehe der Wurzel auf den Grund und heile / verhindere es, wenn du kannst.
Da ein System auf vielen Ebenen existiert, sollten wir auf vielen Ebenen testen:
Bearbeiten: Lassen Sie alle Fehler oder Warnungen per E-Mail direkt an Ihren Fallmanager senden. Auf diese Weise können Sie Ereignisse an einem Ort verfolgen.
1) Verbindung : Überwachen Sie Ihre Internetverbindung vom Server und von außen. Protokolliere das irgendwo
2) Server : Überwachen Sie alle Prozesse, die Sie benötigen, um sicherzustellen, dass sie ausgeführt werden und den Server nicht fixieren. Verwenden Sie einen HP Server oder etwas Ähnliches mit einer Hardwarefehlerbenachrichtigung, die auf BIOS-Ebene ausgeführt werden kann. Benachrichtigen und protokollieren Sie, wenn dies der Fall ist.
3) Software : Identifizieren Sie die Schlüsselsoftware, die immer ausgeführt werden muss. Stellen Sie gegebenenfalls die Leistungsstufen ein und überwachen Sie sie. Nagios sollte dabei helfen können. Unter Windows kann es etwas mehr sein. Wenn eine Ausnahme auftritt, sollten Sie in der Lage sein, ein Skript daraus auszuführen, um Prozesse automatisch neu zu starten. Mein Traumsystem ermöglicht es mir, mit Servern per SMS zu interagieren, wenn der Server dies als Ausnahme ansieht, die ich entweder zulassen muss, oder als eine Ausnahme, die automatisch auftritt, wenn ich nicht per SMS kündige. Eines Tages..
4) Remote-Stromversorgung : Stellen Sie sicher, dass Sie über Funktionen zum Zurücksetzen der Remote-Stromversorgung verfügen. Möglicherweise möchten Sie wöchentliche Neustarts planen, wenn Sie jemals Windows für irgendetwas verwenden.
5) Testen der Geschäftslogik : Führen Sie regelmäßig Skripts aus, um den Workflow Ihres Systems zu testen. Selenium kann wahrscheinlich etwas davon erreichen, aber ich mag es auch, die Ergebnisse zu protokollieren, um zu sagen, dass dies zu diesem Zeitpunkt lief und diese Dateien Fehler hatten. Wenn möglich, lassen Sie das System sich selbst durch Ihre Skripte überwachen.
6) Backups : Erstellen Sie ein Backup, das Sie festlegen und vergessen können. Wenn Sie Dinge in virtuelle Maschinen integrieren können, ist dies ideal, da Sie jeden Teil Ihrer Infrastruktur überall skalieren, verschieben oder bereitstellen können. Ich hatte Fälle, in denen ich einen toten Server auf meinen Laptop verschoben habe und ihn in VMware laufen ließ, während ich ein Problem behoben habe.