Haben Sie eine kreative Verwendung für Nagios?


7

Ich bin auf der Suche nach Inspirationen für nicht standardmäßige Anwendungen von Überwachungssystemen wie Nagios, mit denen normalerweise überprüft wird, ob HTTP reagiert usw. Ich bin gespannt, wie die Leute das einfache Nagios-Framework verwendet haben und es auf unerwartete Weise ausführen, damit ich es kann stehlen leihen sie.


7
Ich habe eine, die eigentlich eine Falle ist (ziehen statt schieben) ... Eines Tages dachte ich, wie ich in Zukunft Probleme überprüfen würde, bevor sie auftreten. Mir wurde klar, dass ich es nicht tun konnte, weil ich die Schecks rechtzeitig durch ein Wurmloch zurückschicken musste. Dann wurde mir jedoch klar, dass ich dies in Zukunft mit einem meiner Lieblings-Blackholes getan hätte. Also habe ich eine Falle aufgestellt, um nach Schecks zu suchen, die von diesem Schwarzen Loch kommen, und jetzt weiß ich einige Tage im Voraus, ob Probleme auftreten. Das Seltsame ist jedoch, dass ich anscheinend nie in der Lage bin, etwas dagegen zu tun :-(
Kyle Brandt

2
@Kyle: Ich frage mich, ob das Gleiche durch Blackhole-Emulation möglich sein könnte. Ich muss anfangen, auf Service-Checks auf / dev / null
Skyhawk

Antworten:


5

Früher habe ich eine Kopie meiner Facebook-Freunde- und Twitter-Follower-Liste gespeichert und Nagios-Benachrichtigungen gesendet, wenn ich nicht befreundet / nicht verfolgt wurde.


4

Ich verwende Nagios, um einen Linux-Cluster mit 1100 Knoten zu überwachen. Nagios wird verwendet, um den sshd-Prozess, den SMART-Status der Festplatte, den Infiniband-Netzwerkstatus, das freigegebene Dateisystem und die Festplattennutzung zu überprüfen. Wenn einer dieser Tests fehlschlägt, wird der Knoten automatisch aus dem Produktionspool des Job Schedulers entfernt, damit er gewartet werden kann. Bisher hat dies ziemlich gut funktioniert. Bevor Nagios im Cluster implementiert wurde, hatten wir viele Beschwerden, dass Programme nicht gestartet werden könnten oder sofort abstürzen würden. Nach der Implementierung haben wir fast keine Beschwerden.

Ich verwende Nagios auch, um einige Xen-Dom-U-Instanzen zu überwachen. Wenn eine dom-U-VM abstürzen würde, würde Nagios die VM automatisch neu starten.


3

nicht meins, aber dies ist die kreativste Verwendung von Nagios, von der ich je gehört habe. Hut ab vor diesem Kerl!


2

Was genau meinst du? Ich habe ein paar Skripte geschrieben, die andere Dinge als HTTP überwachen. Ich habe sogar eine Art "URL-Inhalt" -Monitor erstellt (sehr einfache), der nur nach einem bestimmten Textblock sucht und dann, wenn weniger als 1 (0) Instanzen des Textes gemeldet werden, als "down", und wenn mehr als 1, wird als up gemeldet.

Das Schreiben von Nagios-Skripten kann mit so ziemlich jeder Sprache durchgeführt werden.


Was macht es, wenn es genau eine Instanz des Textes gibt?
James L

Es wird eine E-Mail gesendet, in der gemeldet wird, dass die Prüfung nicht bestanden wurde, und in Nagios als "rot" angezeigt (nach unten, wie Nagios es ausdrückt).
Drawrockshard

Ich habe etwas Ähnliches getan, um mit Curl und md5sum nach Seitenverunstaltungen zu suchen.
Tom O'Connor

2

Ich sammle Leistungsdaten in rrd-Daten. Daher habe ich einige Überprüfungen durchgeführt, um mehrere Datenpunkte aus den letzten Überprüfungen zu lesen und nach Änderungen in Trends zu suchen. Diese Skripte können nützlich sein. Es ist im Grunde eine automatisierte Methode zum Lesen von Grafiken.


Das würde mich sehr interessieren. Ich nahm nicht an, dass es Ihnen etwas ausmachen würde, zu teilen? Es wäre schön, dasselbe mit Cacti-Graphen zu tun.
Sinping

@sinping: Hier ist einer von ihnen .. Ich denke :-) Irgendwie vor einiger
Kyle Brandt

2

Vielleicht noch etwas, woran die Leute interessiert sein könnten:

Ich mache hier Backups mit Dirvish der gesamten Infrastruktur. Nachdem die Dirvish-Sicherung abgeschlossen ist, überprüfe ich die Sicherungsergebnisse mit einem kleinen Skript und sende die Ergebnisse von der Sicherungsmaschine an die Nagios-Maschine.

Auf dem Nagios-Server ist hierfür eine passive Prüfung definiert. Das vielleicht interessanteste hier: Ich habe freshness_thresholdmit 93600 (= 26h) und check_commandmit check_dummy_args!2!'Last backup cycle too long ago'(und natürlich check_freshnessmit 1) definiert. Auf diese Weise werde ich automatisch benachrichtigt, wenn ein Backup zu lange dauert oder nicht ohne Abfrage ausgeführt wurde.


2

Neben all den üblichen und langweiligen Dingen habe ich einen Monitor, um zu überprüfen, ob es der SysAdm-Tag ist, der alle meine Benutzer sendet und alarmiert.

Ich habe auch Pläne, beim Festival einen akustischen Alarm für wirklich gefährliche Fehler zu implementieren und die Anwesenheit des Chefs in der Zentrale zu überwachen. Aber sie bezahlen mich nicht gern für die Umsetzung von Streiche


1

Ein Beispiel, von dem ich gehört habe, ist ein Typ, der Nagios-Checks eingerichtet hat, um sein Forum auf ungesunde Aktivitäten wie eine große Anzahl von nicht beantworteten Threads und die mittlere Zeit zwischen den Posts zu überwachen.


Ah, nein, nicht wirklich etwas, das ich wirklich untersucht habe. Das Schreiben von Skripten für Nagios ist jedoch sehr einfach, sobald Sie wissen, wie der Code und die ihm zugeführten Argumente / Statuscodes interpretiert werden.
Drawrockshard

1

Hier habe ich ein SMS-Gateway mit einigen USB-Modems. Natürlich überwache ich die Modems und das Gateway selbst. Da alle unsere dort verwendeten SIM-Karten ein Kontingent von 1000 kostenlosen SMS pro Monat haben, überwache ich die Menge der bereits gesendeten SMS über das normale Webinterface unseres Mobilfunknetzbetreibers (kleines Perl-Skript mit WWW :: Mechanize). Wenn eine SIM-Karte keine kostenlosen SMS mehr senden kann, wird sie von Nagios deaktiviert. Wenn das Webinterface des Mobilfunknetzbetreibers Nagios mitteilt, dass erneut 1000 kostenlose SMS gesendet werden müssen, wird das Modem erneut aktiviert. In Verbindung mit Nagios-Grapher habe ich auch schöne Statistiken ...


1

Ich habe zahlreiche passive Dienste nur für den Status der Dateiaktualisierung und einen aktiven Dienst zum Generieren eines Berichts über den Dateistatus. Der aktive Dienst führt ein Skript aus, das einen Bericht ausführt und die Ergebnisse in die Befehlsdatei speichert. Auf diese Weise erhalte ich eine Benachrichtigung, wenn (1) der Bericht nicht ausgeführt werden konnte und (2) ich ein fehlerhaftes Ergebnis aller von ihm ausgeführten Dateien erhalte Anfragen gegen. Die Prüfung wird alle 5 Minuten ausgeführt, und der Dateistatus wird alle 5 Minuten aktualisiert. Es funktioniert sehr sehr gut.

Ich verwende dasselbe Konzept bei der Bestimmung von Dateien, die aus externen Quellen (http, ftp usw.) abgerufen werden sollen. Stecken Sie ein Skript mit dem erforderlichen Wiederholungsintervall in NAGIOS, das Verzeichnisse auf Remote-Ressourcen durchläuft und nach Dateien sucht, die wir abrufen müssen. Wenn es nichts findet, alarmieren Sie, wenn es etwas findet, beenden Sie OK und erledigen Sie die Arbeit, um die Pull-Anfrage in unsere Warteschlange zu stellen.

Abgesehen davon habe ich auch zahlreiche "Wie alt ist diese Datei" - oder "Wie alt ist dieses Verzeichnis" -Überprüfungen, die dumm sind, und ich verabscheue sie sehr.



1

Wir hatten sowohl Nagios als auch Solarwinds als unsere primären Überwachungssysteme an dem letzten Ort, an dem ich ein NOC-Typ war. Solarwinds war großartig für die Überwachung der Windows-Systeme, aber es war etwas schuppig, so dass wir viel zwischen den beiden Systemen überwacht haben, damit sie sich gegenseitig überwachen. Viele Python-Skripte, die SQL-Abfragen in der Solarwinds-Datenbank ausführen, um sicherzustellen, dass sie keine veralteten Daten enthalten.

Sie können auch ein Nagios-Überprüfungsskript verwenden, um ein Software-Update auf einem Computer auszulösen und sicherzustellen, dass wir in regelmäßigen Abständen die aktuelle Version verwenden.

Auf unseren NFS-Servern gab es keinen bestimmten Satz von Bereitstellungen, die dauerhaft "korrekt" waren. Daher wurden die Dateiserver-Überprüfungsskripte so eingerichtet, dass bei jeder Änderung der Liste der exportierten Dateisysteme immer eine Warnung ausgegeben wird. Auf diese Weise wurden die Leute, die diese Maschinen betreiben, immer benachrichtigt, wenn etwas hinzugefügt oder entfernt wurde. Wenn sie zu diesem Zeitpunkt an der Maschine arbeiteten, ignorierten sie die Warnung. Wenn sie nicht wären, würden sie es reparieren. Das Konzept "Alarm bei Delta" anstelle des Konzepts "Alarm bei Status" hat dazu beigetragen, einen Teil unseres Kommunikationsaufwands für solche Dinge zu reduzieren.

Wir hatten 24-Stunden-NOC-Affen, um alles zu beobachten, daher hatten wir auch eine regelmäßige Meldung "E-Mail funktioniert", die sie planmäßig erhalten würden, und sie würden manuell in Panik geraten, wenn keine der automatischen Überwachungsmaßnahmen festgestellt hätte, dass die E-Mail defekt war. Diese Art von Dingen ist einfach als "Überprüfungsskript" einzurichten, selbst wenn ein OK-Rückgabewert aus dem Skript nicht sicher sagt, dass alles in Ordnung ist. Wenn Sie nicht über die Ersatzkörper verfügen, um dies manuell zu überprüfen, können Sie auch ein Überprüfungsskript zum Senden von E-Mails und ein Überprüfungsskript zum Überprüfen von E-Mails verwenden, die gleichzeitig funktionieren. Das Überprüfungs-E-Mail-Skript weist auf hohe Zustellungslatenzen hin. Es ist keine so vollständige Garantie dafür, dass das System durchgängig funktioniert, wie wenn jemand es tatsächlich auf seinem Blackberry und Outlook liest, aber es deckt die meisten möglichen Probleme ab.

Viele Nagios-Sachen werden wirklich ortsspezifisch sein. "Sehen Sie einen Juckreiz, kratzen Sie einen Juckreiz". Man muss nur ein praktischer Träumer sein.


0

Ich könnte versuchen, einen Nagios-Scheck zu schreiben, um den Armeekern der Ingenieurdaten für den örtlichen Damm zu kratzen und darauf aufmerksam zu machen. Besonders wichtig jetzt, wo ich in der Nähe der Flutebene wohne.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.