(ursprünglich auf serverfault gepostet )
Also, anstatt zu erraten, was die Ursache ist (obwohl mein Geld auf den NVIDIA-Treibern liegt), wo beginne ich zu suchen, um einige Fakten festzuhalten?
Ich habe / var / log schon mehrmals durchgesehen, aber da ist eine Menge Zeug drin und ich kann die wichtigen Teile (noch) nicht erkennen.
Hintergrund: Die Kurzfassung
Ich bin von WinXP zu Ubuntu Karmic gewechselt, kurz nachdem es verfügbar wurde.
Seitdem hatte ich eine Reihe scheinbar zufälliger Abstürze, die sich wie folgt manifestierten:
- ein spontaner Neustart
- Ein vollständiger Absturz, bei dem meine USB-Tastatur und -Maus nicht mehr reagieren (bis die LEDs erlöschen). Außerdem kann ich in der Regel nicht auf die Box zugreifen, wenn dies passiert.
Ich habe viel gesucht und Nvidia scheint der Hauptverdächtige zu sein, aber ich habe keine Ahnung, wo ich anfangen soll, herauszufinden, was die wahre Ursache ist.
Ein Benutzer mit Serverfehler schlug vor, den Arbeitsspeicher mit MemtextX86 + zu überprüfen. Keine Fehler gefunden. Es wurde auch vorgeschlagen, die Temperatur der Grafikkarte zu überwachen, worauf ich mich jetzt konzentriere.
Abgesehen von Vorschlägen irgendjemandes?
Hintergrund: Die Langfassung
Manchmal kann ich eine ganze Woche ohne Sturz fahren und habe dann 5 in 2 Tagen.
Aus dem Wunsch heraus, mögliche Verdächtige auszuschalten, habe ich im Laufe der Zeit einige Änderungen ohne Erfolg vorgenommen:
- Ursprünglich habe ich KVM für die Virtualisierung verwendet, jetzt verwende ich VirtualBox OSE
- Ich hatte NFS im Kernel, benutze aber jetzt Samba
- Ich habe Compiz benutzt, aber seitdem ausgeschaltet
- Ich habe von 64-Bit-Karmic auf 32-Bit-Karmic umgestellt (auch aus anderen Gründen).
- Ich habe Ubuntu, Kubuntu und Xubuntu ausprobiert. Jedes Mal das gleiche Problem (obwohl es in der letzten Zeit in Gnome häufiger vorkommt als in XFCE).
- Ich habe den Nvidia-Treiber von Version 185 auf Version 96 zurückgesetzt (NVIDIA Linux x86-Kernelmodul 96.43.13 Do 25.06. 18:42:21 PDT 2009). Dies scheint die Fehlerhäufigkeit verringert zu haben.
Dies kann je nach dem, was gerade läuft, variieren. Folgendes ist üblich, wurde jedoch nicht bei jedem Absturz ausgeführt:
- Firefox 3.5
- VirtualBox OSE mit 1 oder 2 Windows XP-VMs
- Skype
- Rhythmbox oder Exaile
Meine Hardware ist 2 - 3 Jahre alt:
- Core 2 Duo 6300
- 4 GB RAM
- einige Rassen von Intel Motherboards dieses Jahrgangs
- eine Asus Dual-Head-Grafikkarte mit Nvdia GeForce 7300 GS-Chipsatz
- 2 x SATA-Festplatten
- Dual-Monitore (daher verlasse ich mich auf die proprietären NVIDIA-Treiber)
Ich habe meine Systemaktualisierungen auf dem neuesten Stand gehalten.
Hoffentlich veranlassen die obigen Daten jemanden, eine bestimmte Art von Protokoll oder Konfiguration vorzuschlagen, die es wert wäre, untersucht zu werden.
Update 1
Hatte gerade einen Crash, bei dem die Lautsprecher durchgedreht sind. Ich habe ein bisschen gegoogelt und es scheint, dass PulseAudio in der Vergangenheit einige Probleme hatte. Ich bin mir noch nicht sicher, ob dies relevant ist, aber PulseAudio wurde jedes Mal ausgeführt, wenn ich einen Absturz hatte.
Update 2
Das Folgen des Links von @ CarlF zum Debian Sysadmin Guide hat mich zu dem magischen sysrq-Schlüssel geführt, den ich beim nächsten Absturz versuchen werde. Nicht, dass dies mir viele Hinweise auf die Ursache geben würde, aber zumindest werde ich es hoffentlich schaffen, ordnungsgemäß herunterzufahren.
Update 3
lm-sensors meldet, dass meine GPU bei fast 70 ° C läuft - interessant. Wenn ich raten müsste, würde ich sagen, dass dies ein wichtiger Hinweis ist.
Update 4
Kurz nach meinem letzten Update die Innenseiten des Systems mit einem Staubwedel treffen - Nettoergebnis: nur ein Absturz seitdem. Ich werde das ein thermisches Problem nennen.