LInux: Wie kann ich diagnostizieren / isolieren, was "zufällige" Hänge und spontane Neustarts verursacht?


20

(ursprünglich auf serverfault gepostet )

Also, anstatt zu erraten, was die Ursache ist (obwohl mein Geld auf den NVIDIA-Treibern liegt), wo beginne ich zu suchen, um einige Fakten festzuhalten?

Ich habe / var / log schon mehrmals durchgesehen, aber da ist eine Menge Zeug drin und ich kann die wichtigen Teile (noch) nicht erkennen.


Hintergrund: Die Kurzfassung

Ich bin von WinXP zu Ubuntu Karmic gewechselt, kurz nachdem es verfügbar wurde.

Seitdem hatte ich eine Reihe scheinbar zufälliger Abstürze, die sich wie folgt manifestierten:

  • ein spontaner Neustart
  • Ein vollständiger Absturz, bei dem meine USB-Tastatur und -Maus nicht mehr reagieren (bis die LEDs erlöschen). Außerdem kann ich in der Regel nicht auf die Box zugreifen, wenn dies passiert.

Ich habe viel gesucht und Nvidia scheint der Hauptverdächtige zu sein, aber ich habe keine Ahnung, wo ich anfangen soll, herauszufinden, was die wahre Ursache ist.

Ein Benutzer mit Serverfehler schlug vor, den Arbeitsspeicher mit MemtextX86 + zu überprüfen. Keine Fehler gefunden. Es wurde auch vorgeschlagen, die Temperatur der Grafikkarte zu überwachen, worauf ich mich jetzt konzentriere.

Abgesehen von Vorschlägen irgendjemandes?



Hintergrund: Die Langfassung

Manchmal kann ich eine ganze Woche ohne Sturz fahren und habe dann 5 in 2 Tagen.

Aus dem Wunsch heraus, mögliche Verdächtige auszuschalten, habe ich im Laufe der Zeit einige Änderungen ohne Erfolg vorgenommen:

  • Ursprünglich habe ich KVM für die Virtualisierung verwendet, jetzt verwende ich VirtualBox OSE
  • Ich hatte NFS im Kernel, benutze aber jetzt Samba
  • Ich habe Compiz benutzt, aber seitdem ausgeschaltet
  • Ich habe von 64-Bit-Karmic auf 32-Bit-Karmic umgestellt (auch aus anderen Gründen).
  • Ich habe Ubuntu, Kubuntu und Xubuntu ausprobiert. Jedes Mal das gleiche Problem (obwohl es in der letzten Zeit in Gnome häufiger vorkommt als in XFCE).
  • Ich habe den Nvidia-Treiber von Version 185 auf Version 96 zurückgesetzt (NVIDIA Linux x86-Kernelmodul 96.43.13 Do 25.06. 18:42:21 PDT 2009). Dies scheint die Fehlerhäufigkeit verringert zu haben.


Dies kann je nach dem, was gerade läuft, variieren. Folgendes ist üblich, wurde jedoch nicht bei jedem Absturz ausgeführt:

  • Firefox 3.5
  • VirtualBox OSE mit 1 oder 2 Windows XP-VMs
  • Skype
  • Rhythmbox oder Exaile


Meine Hardware ist 2 - 3 Jahre alt:

  • Core 2 Duo 6300
  • 4 GB RAM
  • einige Rassen von Intel Motherboards dieses Jahrgangs
  • eine Asus Dual-Head-Grafikkarte mit Nvdia GeForce 7300 GS-Chipsatz
  • 2 x SATA-Festplatten
  • Dual-Monitore (daher verlasse ich mich auf die proprietären NVIDIA-Treiber)


Ich habe meine Systemaktualisierungen auf dem neuesten Stand gehalten.

Hoffentlich veranlassen die obigen Daten jemanden, eine bestimmte Art von Protokoll oder Konfiguration vorzuschlagen, die es wert wäre, untersucht zu werden.


Update 1

Hatte gerade einen Crash, bei dem die Lautsprecher durchgedreht sind. Ich habe ein bisschen gegoogelt und es scheint, dass PulseAudio in der Vergangenheit einige Probleme hatte. Ich bin mir noch nicht sicher, ob dies relevant ist, aber PulseAudio wurde jedes Mal ausgeführt, wenn ich einen Absturz hatte.


Update 2

Das Folgen des Links von @ CarlF zum Debian Sysadmin Guide hat mich zu dem magischen sysrq-Schlüssel geführt, den ich beim nächsten Absturz versuchen werde. Nicht, dass dies mir viele Hinweise auf die Ursache geben würde, aber zumindest werde ich es hoffentlich schaffen, ordnungsgemäß herunterzufahren.


Update 3

lm-sensors meldet, dass meine GPU bei fast 70 ° C läuft - interessant. Wenn ich raten müsste, würde ich sagen, dass dies ein wichtiger Hinweis ist.


Update 4

Kurz nach meinem letzten Update die Innenseiten des Systems mit einem Staubwedel treffen - Nettoergebnis: nur ein Absturz seitdem. Ich werde das ein thermisches Problem nennen.


3
Hervorragende Formatierung und Hintergrundinformationen, ich wünschte, alle Fragen wären so. +1.
John T

Antworten:


8

Es gibt gute Ratschläge aus dem Debian-Administratorhandbuch hier: http://www.debian-administration.org/articles/492


Interessant zu sehen, was sie über nicht informative Protokolle zu sagen haben, die ein Zeichen für echte Hardwareprobleme sind. Zwischen dem letzten / var / log / message-Eintrag und dem Neustart liegen sechs Stunden. Hmmmm.
LRE

akzeptiert mit der Begründung, dass der Link deutlich machte, dass nichts in den Protokollen gleichbedeutend mit Hardwareproblemen ist - führen Sie mich in die richtige Richtung.
LRE

4

Als erstes sollten Sie prüfen, ob beim Booten Hardwareprobleme auftreten. Der Startvorgang protokolliert Daten aus dem Kernel-Ringpuffer in /var/log/boot.log. Nach dem Booten des Systems werden neue Nachrichten in diesen Puffer gespült und Sie können den aktuellen Status mit dem dmesgBefehl anzeigen . Ein wichtiges Protokoll, das Sie ebenfalls untersuchen möchten, ist /var/log/messages. Dies enthält Zeitstempel, Einrichtungen und die Prioritäten der Fehler und der Anwendung, die sie erzeugt haben. Die Verfügbarkeit eines Zeitstempels ist bei der Fehlersuche von unschätzbarem Wert.

Die zufälligen Abstürze klingen allerdings definitiv hardwarebezogen. Versuchen Sie, die gesamte Hardware auf dem Motherboard neu zu installieren, und führen Sie memtest86 + aus.


Ich sehe eine Zeile in / var / log / messages, die besagt "imklog 4.2.0, log source = / var / run / rsyslog / kmsg started". Ist dies ein guter Indikator für einen Systemstart? Wenn ja, kann ich das verwenden, um einen Bereich des Protokolls zu lokalisieren, aus dem ich zurückscannen kann.
LRE

Ja, ich glaube, es ist eine der ersten, wenn nicht die erste Zeile nach einem Start. Es ist das Kernel-Log-Eingabemodul.
John T

2

Haben Sie versucht, Speicher, Prozessor und andere Chips neu einzurichten? Möglicherweise möchten Sie auch versuchen, ein anderes Betriebssystem (FreeDOS) auszuführen, um einige Möglichkeiten auszuschließen.

Ein Tipp: Sie sollten auch in der Lage sein, zwei Monitore in Gnome ohne die Verwendung der nvidia-Treiber zu verwenden.


am besten konnte ich sagen, dass ich definitiv die nvidia-eigenen Treiber brauche, um zwei Monitore zu verwenden. Können Sie mich in die richtige Richtung weisen, damit ich sie nicht brauche?
LRE

Ich kann falsch sein. Ich habe mich ein bisschen umgesehen und Verweise auf Xinerama (wofür der Treiber meines Erachtens Erweiterungen hat) gesehen, aber nichts, was mit nicht-proprietären Treibern zu tun hat. Leider habe ich keine Maschine mit einer nVidia-Karte zum Spielen.
Nerdfest
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.