Wir hatten sowohl Nagios als auch Solarwinds als unsere primären Überwachungssysteme an dem letzten Ort, an dem ich ein NOC-Typ war. Solarwinds war großartig für die Überwachung der Windows-Systeme, aber es war etwas schuppig, so dass wir viel zwischen den beiden Systemen überwacht haben, damit sie sich gegenseitig überwachen. Viele Python-Skripte, die SQL-Abfragen in der Solarwinds-Datenbank ausführen, um sicherzustellen, dass sie keine veralteten Daten enthalten.
Sie können auch ein Nagios-Überprüfungsskript verwenden, um ein Software-Update auf einem Computer auszulösen und sicherzustellen, dass wir in regelmäßigen Abständen die aktuelle Version verwenden.
Auf unseren NFS-Servern gab es keinen bestimmten Satz von Bereitstellungen, die dauerhaft "korrekt" waren. Daher wurden die Dateiserver-Überprüfungsskripte so eingerichtet, dass bei jeder Änderung der Liste der exportierten Dateisysteme immer eine Warnung ausgegeben wird. Auf diese Weise wurden die Leute, die diese Maschinen betreiben, immer benachrichtigt, wenn etwas hinzugefügt oder entfernt wurde. Wenn sie zu diesem Zeitpunkt an der Maschine arbeiteten, ignorierten sie die Warnung. Wenn sie nicht wären, würden sie es reparieren. Das Konzept "Alarm bei Delta" anstelle des Konzepts "Alarm bei Status" hat dazu beigetragen, einen Teil unseres Kommunikationsaufwands für solche Dinge zu reduzieren.
Wir hatten 24-Stunden-NOC-Affen, um alles zu beobachten, daher hatten wir auch eine regelmäßige Meldung "E-Mail funktioniert", die sie planmäßig erhalten würden, und sie würden manuell in Panik geraten, wenn keine der automatischen Überwachungsmaßnahmen festgestellt hätte, dass die E-Mail defekt war. Diese Art von Dingen ist einfach als "Überprüfungsskript" einzurichten, selbst wenn ein OK-Rückgabewert aus dem Skript nicht sicher sagt, dass alles in Ordnung ist. Wenn Sie nicht über die Ersatzkörper verfügen, um dies manuell zu überprüfen, können Sie auch ein Überprüfungsskript zum Senden von E-Mails und ein Überprüfungsskript zum Überprüfen von E-Mails verwenden, die gleichzeitig funktionieren. Das Überprüfungs-E-Mail-Skript weist auf hohe Zustellungslatenzen hin. Es ist keine so vollständige Garantie dafür, dass das System durchgängig funktioniert, wie wenn jemand es tatsächlich auf seinem Blackberry und Outlook liest, aber es deckt die meisten möglichen Probleme ab.
Viele Nagios-Sachen werden wirklich ortsspezifisch sein. "Sehen Sie einen Juckreiz, kratzen Sie einen Juckreiz". Man muss nur ein praktischer Träumer sein.