Kann jemand die "Anwendungsfälle" für die Standard-Munin-Diagramme erklären?


9

Bei der Installation von munin wird ein Standardsatz von Plugins aktiviert (zumindest unter Ubuntu). Alternativ können Sie einfach ausführen, munin-node-configureum herauszufinden, welche Plugins von Ihrem System unterstützt werden. Die meisten dieser Plugins zeichnen einfache Daten. Meine Frage ist nicht , die Art der Daten zu erklären (na ja ... vielleicht für einige), aber wonach suchen Sie in diesen Grafiken?

Es ist einfach, munin zu installieren und ausgefallene Grafiken zu sehen. Aber die Grafiken zu haben und sie nicht "lesen" zu können, macht sie völlig nutzlos.

Ich werde Standard-Plugins auflisten, die auf meinem System standardmäßig aktiviert sind. Es wird also eine lange Liste. Der Vollständigkeit halber werde ich auch Plugins auflisten, die ich zu verstehen glaube, und eine kurze Erklärung geben, wofür sie meiner Meinung nach verwendet werden. Bitte korrigieren Sie, wenn ich mit einem von ihnen falsch liege.

Lassen Sie mich diese Fragen in drei Teile aufteilen:

  • Plugins, bei denen ich die Daten nicht einmal verstehe
  • Plugins, bei denen ich die Daten verstehe, aber nicht weiß, worauf ich achten soll
  • Plugins, die ich zu verstehen denke

Plugins, bei denen ich die Daten nicht einmal verstehe

Diese können Fragen enthalten, die sich nicht unbedingt nur an Munin richten. Das Nichtverstehen der Daten bedeutet normalerweise eine Lücke im Grundwissen über Betriebssysteme / Hardware ....;) Sie können gerne mit einer "giyf" -Antwort antworten.

Dies sind Plugins, bei denen ich nur raten kann, was los ist ... Ich möchte mir diese "Vermutungen" kaum ansehen ...

  • Festplatten-E / A pro Gerät (E / A / Sekunde)
    Was ist eine E / A ? Ich weiß, dass es für Eingabe / Ausgabe steht. Aber so weit ist es.
  • Festplattenlatenz pro Gerät (durchschnittliche E / A-Wartezeit)
    Keine Ahnung, was eine "E / A-Wartezeit" ist ...
  • E / A-Servicezeit
    Dies ist ein großes Durcheinander, und es ist nahezu unmöglich, überhaupt etwas in der Grafik zu sehen.

Plugins, bei denen ich die Daten verstehe, aber nicht weiß, worauf ich achten soll

  • IOStat (Blöcke / Sekunde gelesen / geschrieben)
    Ich nehme an, das, worauf man hier achten muss, sind Spitzen? Was würde bedeuten, dass das Gerät stark beansprucht wird?
  • Verfügbare Entropie (Bytes)
    Ich gehe davon aus, dass dies für die Zufallszahlengenerierung wichtig ist. Warum sollte ich das grafisch darstellen? Bisher war der Wert immer nahezu konstant.
  • VMStat (laufende / E / A-Schlafprozesse)
    Was ist der Unterschied zwischen diesem und dem Diagramm "Prozesse"? Beide zeigen laufende / schlafende Prozesse, während das Diagramm "Prozesse" mehr Details zu enthalten scheint.
  • Festplattendurchsatz pro Gerät (Bytes / Sekunde gelesen / geschrieben)
    Was ist der Unterschied zwischen diesem und dem "IOStat" -Diagramm?
  • Verwendung der Inode-Tabelle
    Worauf sollte ich in diesem Diagramm achten?

Plugins, die ich zu verstehen denke

Ich werde hier einige Dinge erraten ... korrigiere mich, wenn ich falsch liege.

  • Festplattennutzung in Prozent (Prozent)
    Wie viel Festplattenspeicher wird verwendet / verbleibt. Da sich dies 100% nähert, sollten Sie in Betracht ziehen, die Partition zu bereinigen oder zu erweitern. Das ist extrem wichtig für die Root-Partition.
  • Firewall-Durchsatz (Pakete / Sekunde)
    Die Anzahl der Pakete, die die Firewall passieren. Wenn dies über einen längeren Zeitraum ansteigt, kann dies ein Zeichen für einen DOS-Angriff sein (oder wir erhalten einfach eine große Datei). Es kann Ihnen auch eine Vorstellung von Ihrer Firewall-Leistung geben. Wenn es sich nivelliert und Sie mehr "Leistung" benötigen, sollten Sie einen Lastausgleich in Betracht ziehen. Wenn es sich nivelliert und eine Korrelation mit Ihrer CPU-Auslastung feststellt, kann dies auch bedeuten, dass Ihre Hardware nicht schnell genug ist. Korrelationen mit der Festplattennutzung können auf übermäßige LOG-Ziele in Ihrer FW-Konfiguration hinweisen.
  • eth0-Fehler (Pakete ein / aus)
    Netzwerkfehler. Wenn dieser Wert zunimmt, kann dies ein Zeichen für eine fehlerhafte Hardware sein.
  • eth0-Verkehr (Bits / Sekunde ein / aus)
    Roher Netzwerkverkehr. Dies sollte mit dem Firewall-Durchsatz korrelieren.
  • Anzahl der Threads
    Ein ständig steigender Wert kann auf einen Prozess hinweisen, bei dem Threads nicht ordnungsgemäß geschlossen werden. Untersuchen!
  • Prozesse
    Aufschlüsselung aktiver Prozesse (einschließlich Schlaf). Eine schnelle Spitze hier könnte auf eine Gabelbombe hindeuten. Ein langsam, aber stetig steigender Wert kann darauf hinweisen, dass eine Anwendung Unterprozesse erzeugt, diese jedoch nicht ordnungsgemäß schließt. Untersuchen Sie mit ps faux.
  • Prozesspriorität
    Hier wird die Verteilung der Prozessprioritäten angezeigt. Nur Prozesse mit hoher Priorität zu haben, nützt nicht viel. Ziehen Sie in Betracht, einige zu priorisieren.
  • CPU auslastung
    Ziemlich einfach. Wenn dies zu einem Spitzenwert führt, wird möglicherweise ein Angriff ausgeführt, oder ein Prozess belastet die CPU. Wenn es im normalen Betrieb langsam zunimmt und sich dem Maximum nähert, sollten Sie ein Upgrade Ihrer Hardware (oder einen Lastausgleich) in Betracht ziehen.
  • Verwendung
    der Dateitabelle Anzahl der aktiv geöffneten Dateien. Wenn dies das Maximum erreicht, wird möglicherweise ein Prozess geöffnet, Dateien werden jedoch nicht ordnungsgemäß freigegeben.
  • Lastdurchschnitt
    Zeigt einen zusammengefassten Wert für die Systemlast an. Sollte mit der CPU-Auslastung korrelieren. Steigende Werte können aus verschiedenen Quellen stammen. Suchen Sie nach Korrelationen mit anderen Diagrammen.
  • Speichernutzung
    Eine grafische Darstellung Ihres Speichers. Solange Sie viele unbenutzte + Cache + Puffer haben, geht es Ihnen gut.
  • Swap In / Out
    Zeigt die Aktivität auf Ihrer Swap-Partition an. Dies sollte immer 0 sein. Wenn Sie diesbezügliche Aktivitäten sehen, sollten Sie Ihrem Computer mehr Speicher hinzufügen!

Gute Frage, leicht anwendbar auf Cacti und andere Grafik-Apps. Die Grafiken sehen oft gut aus, aber es ist ziemlich schwer herauszufinden, was sie bedeuten und wie etwas aussieht, das weiterer Aufmerksamkeit bedarf.
Dunxd

2
Für das "Warum sollte ich das grafisch darstellen? Bisher war der Wert immer nahezu konstant." Denken Sie zum Teil daran, dass die meisten Informationen normalerweise nur bei Problemen wertvoll sind.
Steve Schnepp

Antworten:


11

Festplatten-E / A pro Gerät (E / A / Sekunde)

Bei herkömmlichen Festplatten ist dies eine sehr wichtige Zahl. Die E / A-Operation ist eine Lese- oder Schreiboperation auf die Festplatte. Mit Rotationsspindeln können Sie je nach Festplattengeschwindigkeit und Nutzungsmuster zwischen Dutzenden und vielleicht 200 IOPS pro Sekunde arbeiten.

Das ist noch nicht alles: Moderne Betriebssysteme verfügen über E / A-Scheduler, die versuchen, mehrere E / A-Anforderungen zu einer zusammenzuführen und so die Arbeit zu beschleunigen. Auch die RAID-Controller usw. führen eine Neuordnung der intelligenten E / A-Anforderungen durch.

Festplattenlatenz pro Gerät (durchschnittliche E / A-Wartezeit)

Wie lange hat es gedauert, die E / A-Anforderung auf einer einzelnen Festplatte auszuführen, um die Daten tatsächlich von dort zu empfangen? Wenn dies einige Millisekunden dauert, sind Sie in Ordnung, wenn es Dutzende von ms sind, dann beginnt Ihr Festplattensubsystem zu schwitzen, wenn es Hunderte von ms mehr sind, haben Sie große Probleme oder haben zumindest ein sehr, sehr langsames System.

IO-Servicezeit

Wie Ihr Festplattensubsystem (das möglicherweise viele Festplatten enthält) insgesamt funktioniert.

IOStat (Blöcke / Sekunde gelesen / geschrieben)

Wie viele Plattenblöcke wurden pro Sekunde gelesen / geschrieben? Suchen Sie nach Spitzen und auch dem Durchschnitt. Wenn sich der Durchschnitt dem maximalen Durchsatz Ihres Festplattensubsystems nähert, ist es Zeit, eine Leistungssteigerung zu planen. Planen Sie diesen Weg tatsächlich vor diesem Punkt.

Verfügbare Entropie (Bytes)

Einige Anwendungen möchten "echte" Zufallsdaten erhalten. Der Kernel sammelt diese "wahre" Zufälligkeit aus verschiedenen Quellen, wie z. B. Tastatur- und Mausaktivität, einem Zufallszahlengenerator, der in vielen Motherboards zu finden ist, oder sogar aus Video- / Musikdateien (Video-Entropyd und Audio-Entropyd können dies tun).

Wenn Ihrem System die Entropie ausgeht, bleiben die Anwendungen, die diese Daten wünschen, stehen, bis sie ihre Daten erhalten. Persönlich habe ich dies in der Vergangenheit mit dem Cyrus IMAP-Daemon und seinem POP3-Dienst gesehen. Vor jeder Anmeldung und auf einem ausgelasteten Server, der den Entropiepool sehr schnell verbraucht hat, wurde eine lange zufällige Zeichenfolge generiert.

Eine Möglichkeit, dieses Problem zu beheben, besteht darin, die Anwendungen so zu ändern, dass nur halbzufällige Daten (/ dev / urandom) verwendet werden. Dies gehört jedoch nicht mehr zu diesem Thema.

VMStat (laufende / E / A-Schlafprozesse)

Ich habe vorher noch nicht darüber nachgedacht, aber ich würde denken, dass dies Informationen über prozessbezogene E / A-Statistiken enthält oder hauptsächlich darüber, ob E / A ausgeführt werden oder nicht und ob diese E / A die E / A-Aktivität blockieren oder nicht.

Festplattendurchsatz pro Gerät (Bytes / Sekunde gelesen / geschrieben)

Dies sind reine Bytes , die pro Sekunde gelesen / geschrieben werden, und häufiger ist dies eine besser lesbare Form als Blöcke , die variieren können. Die Blockgröße kann aufgrund der verwendeten Festplatten, des verwendeten Dateisystems (und seiner Einstellungen) usw. unterschiedlich sein. Manchmal beträgt die Blockgröße 512 Byte, manchmal 4096 Byte, manchmal etwas anderes.

Verwendung der Inode-Tabelle

Bei Dateisystemen mit dynamischen Inodes (wie XFS) nichts. Bei Dateisystemen mit statischen Inodes-Maps (wie ext3) ist alles möglich. Wenn Sie eine Kombination aus statischen Inodes, einem großen Dateisystem und einer großen Anzahl von Verzeichnissen und kleinen Dateien haben, kann es vorkommen, dass Sie nicht mehr Dateien auf dieser Partition erstellen können, obwohl theoretisch viel freier Speicherplatz übrig bleibt. Keine freien Inodes == schlecht.


unter Berücksichtigung der Inode-Nutzung. Ich verwende derzeit ext4 und die Max-Indodes und Open-Inodes in diesem Diagramm sind extrem nahe beieinander (offen: 31,11k Tabellengröße: 32,12k). Was mir noch ungefähr 1k Inodes übrig lassen würde. Da das System frisch installiert ist, glaube ich nicht, dass dies auf ein Problem hinweist. Ordnet ext4 Inodes dynamisch zu? Ich habe nichts darüber auf Google gefunden ...
Exhuma

Siehe df -i, es meldet Ihre aktuelle Inode-Nutzung. ext4 hat Inodes behoben, zum Beispiel meine Fedora 16-Berichte für meine Root-Partitionrootfs 3276800 238083 3038717 8% /
Janne Pikkarainen

Hmmm ... interessant. Dies deutet darauf hin, dass der Munin-Graph nicht korrekt ist. Mir ist auch einfach nicht klar geworden, dass das Munin-Diagramm nur einen Wert zeigt. Sollte nicht ein Wert pro Dateisystem angezeigt werden, um hilfreich zu sein? Siehe auch den df -iScreenshot ( i44.tinypic.com/oixkiq.png ) gegen den Munin-Graphen ( i39.tinypic.com/dxl64z.png )
Exhuma

... Der Wert in der Grafik (25,57k) ist in der dfAusgabe eigentlich gar nicht zu sehen .
Exhuma

Bei weiteren Untersuchungen sehe ich, dass das Munin-Plugin open_inodesden Wert von übernimmt /proc/sys/fs/inode-nr. Es ist ein Kernel und kein Dateisystemwert. Ein bisschen mehr googeln hat mich darauf hingewiesen: mjmwired.net/kernel/Documentation/sysctl/fs.txt#119 Aus diesem Dokument würde ich annehmen, dass das Limit in gefunden werden kann inode-max. Diese Datei ist jedoch auf meinem System nicht vorhanden. Ist es möglich, dass dies für neuere Kernel nicht mehr relevant ist? Dies würde es mir ermöglichen, dieses Diagramm aus meiner Munin-Instanz zu entfernen!
Exhuma
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.