Erste Bestellung: Reagiert es?
Wenn Sie sich nicht anmelden können, treten größere Probleme auf. Dies gibt es im Allgemeinen in zwei Varianten: Hardwarefehler und Softwarefehler. Beide sind potenziell katastrophal. Überprüfen Sie zuerst den allgemeinen Hardwarezustand, um DFA-Fehler zu vermeiden. In der Regel reicht ein einfacher Blick aus.
Zweite Ordnung: Sind die zugrunde liegenden Strukturen des Systems in guter Gesundheit und Ordnung?
Überprüfen Sie die "Goldene Triade" der Systeme:
- Für die Verarbeitung steht genügend CPU-Zeit zur Verfügung
- Es ist genügend Speicherplatz für die Speicherung frei
- Für Workloads ist genügend Speicher frei
In den letzten Jahrzehnten hat sich die Triade zu einem "Quad" entwickelt, das Kommunikation (Vernetzung) umfasst:
- Konnektivität ist funktional, reaktionsschnell und hat Kapazität
Dritte Ordnung: Wie schwer ist das Problem?
Welche Programme oder Dienste sind betroffen? Ist es in absteigender Reihenfolge des Schweregrads systemisch (systemweit), gruppiert (eine Gruppe von Programmen) oder isoliert (ein bestimmtes Programm)? Programmcluster werden normalerweise ausgelöst, weil ein bestimmter zugrunde liegender Dienst ausgefallen ist oder nicht mehr reagiert. Systemische Probleme hängen manchmal damit zusammen (denken Sie an DNS- oder IP-Konflikte), aber normalerweise ist es wichtig zu wissen, wo Sie suchen müssen.
Vierte Ordnung: Stellen Diagnosetools nützliche Daten bereit, die für das Problem relevant sind?
Nachdem Sie nun Informationen über den Zustand des Systems (zweite Ordnung) und die Teile des Systems (dritte Ordnung) haben, sollte es Ihnen leicht fallen, das Problem einzugrenzen.
Fehlermeldungen oder Protokolldateien sollten ein häufiger Wegpunkt auf dieser Reise sein.
CPU-Probleme:
Speicherplatz- / E / A-Probleme:
Speicherprobleme:
Konnektivitätsprobleme:
- Klingeln
- route (und arp und rarp und freunde)
- iptables, ipchains, ipfw (für die BSD-Leute da draußen)
- traceroute oder mtr
- Hosts, nslookup oder dig
- netstat
Häufigste Beschwerde (die ich höre):
E-Mails werden nicht schnell genug zugestellt (mehr als eine Minute vom Senden bis zum Empfang durch den Empfänger), oder E-Mails lehnen meinen Versuch ab, sie zu senden. Dies hängt normalerweise damit zusammen, dass der Ratenbegrenzer in Postfix während eines Spam-Sturms aktiviert wird, was sich auf die Fähigkeit auswirkt, interne Zustellungen zu akzeptieren.
Ein Beispiel aus dem wirklichen Leben:
Dies ist jedoch nicht immer der Fall. Einmal blieb das Problem unabhängig vom Neustart des Dienstes bestehen. Nach 3 Minuten war es Zeit, sich umzusehen. Die CPU war ausgelastet, aber unter 100%, aber die Last war auf einer Box mit nur 2 Kernen auf 15 gestiegen und drohte höher zu steigen. Der Befehl top ergab, dass das Mailsystem zusammen mit dem Mailscanner auf Hochtouren war, aber keine untergeordneten Amavis-Prozesse zu sehen waren. Das war der Hinweis - der Befehl für die Mail-Warteschlange (mailq) zeigte mehr als 150 nicht zugestellte Nachrichten an, von denen über 80% Spam warenin den letzten 20 Minuten. Eine schnelle Anpassung, um den Ratenbegrenzer zu senken (was die Aufnahmerate des Spam-Sturms verringerte) und gleichzeitig die Anzahl der untergeordneten E-Mail-Scanner-Prozesse zu erhöhen (um den Rückstand zu verarbeiten), gefolgt von einem Neustart des Dienstes, löste das Problem und das System war in der Lage Lieferungen in kurzer Zeit abzuschließen.
Die Ursache des Problems war, dass der übergeordnete Amavis-Prozess tot umgekippt war und die untergeordneten Prozesse schließlich alle ihren Lauf genommen hatten (sie beenden sich nach so vielen Scans selbst, um Speicherverluste zu verhindern). Es gab also SMTP-Prozesse in Postfix, die versuchten, ... Thin Air ... zu kontaktieren, um den erforderlichen Spam- / Virenscan durchzuführen. Die von mir verwendete Distribution hatte veraltete Pakete, die niemals aktualisiert werden würden. Da die Installation in ungefähr einem Jahr ersetzt werden sollte, habe ich die Installation manuell auf die neueste Version "überschrieben", die mehrere Fehlerkorrekturen enthielt. Ich hatte seitdem nicht mehr das gleiche Problem.