Wie kann die Ursache des Systemabsturzes ermittelt werden?

10

Mein Server stürzt ungefähr einmal pro Woche ab und hinterlässt keine Hinweise darauf, was ihn verursacht. Ich habe es überprüft /var/log/messagesund es stoppt die Aufzeichnung irgendwann und beginnt bei den Computerpost-Informationen, wenn ich einen harten Neustart durchführe.

Gibt es etwas, das ich überprüfen oder installieren kann, um die Ursache zu ermitteln?

Ich verwende CentOS 7.

Hier ist der einzige Fehler / das einzige Problem in meinem /var/log/dmesg: https://paste.netcoding.net/cosisiloji.log

[    3.606936] md: Waiting for all devices to be available before autodetect
[    3.606984] md: If you don't use raid, use raid=noautodetect
[    3.607085] md: Autodetecting RAID arrays.
[    3.608309] md: Scanned 6 and added 6 devices.
[    3.608362] md: autorun ...
[    3.608412] md: considering sdc2 ...
[    3.608464] md:  adding sdc2 ...
[    3.608516] md: sdc1 has different UUID to sdc2
[    3.608570] md:  adding sdb2 ...
[    3.608620] md: sdb1 has different UUID to sdc2
[    3.608674] md:  adding sda2 ...
[    3.608726] md: sda1 has different UUID to sdc2
[    3.608944] md: created md2
[    3.608997] md: bind<sda2>
[    3.609058] md: bind<sdb2>
[    3.609116] md: bind<sdc2>
[    3.609175] md: running: <sdc2><sdb2><sda2>
[    3.609548] md/raid1:md2: active with 3 out of 3 mirrors
[    3.609623] md2: detected capacity change from 0 to 98520989696
[    3.609685] md: considering sdc1 ...
[    3.609737] md:  adding sdc1 ...
[    3.609789] md:  adding sdb1 ...
[    3.609841] md:  adding sda1 ...
[    3.610005] md: created md1
[    3.610055] md: bind<sda1>
[    3.610117] md: bind<sdb1>
[    3.610175] md: bind<sdc1>
[    3.610233] md: running: <sdc1><sdb1><sda1>
[    3.610714] md/raid1:md1: not clean -- starting background reconstruction
[    3.610773] md/raid1:md1: active with 3 out of 3 mirrors
[    3.610854] md1: detected capacity change from 0 to 20970405888
[    3.610917] md: ... autorun DONE.
[    3.610999] md: resync of RAID array md1
[    3.611054] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[    3.611119] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for resync.
[    3.611180] md: using 128k window, over a total of 20478912k.
[    3.611244]  md1: unknown partition table
[    3.624786] EXT3-fs (md1): error: couldn't mount because of unsupported optional features (240)
[    3.627095] EXT2-fs (md1): error: couldn't mount because of unsupported optional features (244)
[    3.630284] EXT4-fs (md1): INFO: recovery required on readonly filesystem
[    3.630341] EXT4-fs (md1): write access will be enabled during recovery
[    3.819411] EXT4-fs (md1): orphan cleanup on readonly fs
[    3.836922] EXT4-fs (md1): 24 orphan inodes deleted
[    3.836975] EXT4-fs (md1): recovery complete
[    3.840557] EXT4-fs (md1): mounted filesystem with ordered data mode. Opts: (null)

linux centos server-crashes

— Brian Graham
quelle

5

Sie können die dmesg-Datei unter überprüfen /var/log/dmesg, in der die Kernel-Nachrichten protokolliert werden. Das Nachrichtenprotokoll protokolliert nur Dienst- und Anwendungsnachrichten. Wenn Sie einen Kernelfehler haben, werden die Dienste und Anwendungen nicht mehr ausgeführt, aber der Kernelfehler wird weiterhin in dmesg protokolliert.

— TooCloudy
quelle

Ich habe dmesg und dmesg.old überprüft, beide enthalten nur die Startinformationen (ca. 4,8 Sekunden). Das einzige "Problem", das ich sehen kann, ist, dass auf der Startdiskette oder den RAID-Laufwerken anscheinend etwas nicht stimmt, das System es jedoch behebt und trotzdem funktioniert. Überprüfen Sie den Hauptbeitrag auf Link.

— Brian Graham

5

Wenn Sie crashkernel/kdumpinstalliert und aktiviert haben, sollten Sie in der Lage sein, den abgestürzten Kernel mit dem crashDienstprogramm relativ einfach zu untersuchen . Angenommen, Sie haben abgestürzte Kernel-Dumps gespeichert, werden unter /var/crash: crash /var/crash/2009-07-17-10\:36/vmcore /usr/lib/debug/lib/modules/uname -r gespeichert /vmlinux.

Schauen Sie hier und hier nach, um weitere Details zu erfahren.

— Shodanshok
quelle

Ich habe den /dev/md1 not foundFehler beim Ausführen grub2-probeund Installieren und Konfigurieren von Crashkernel / kdump behoben und werde zurückmelden, wenn / wenn es erneut abstürzt.

— Brian Graham

2

BIOS-Gedächtnistest
BIOS-Festplattentest
Überprüfen Sie das Smart Drive-Protokoll smartctl /dev/sda -a
Smart Drive- Tests
verlassen dmesg -wHin einem Fenster ausgeführt

— Jim U.
quelle

Ich habe Smart Drive-Tests für alle 3 Laufwerke durchgeführt, sie sind nicht beschädigt. Ich habe dmesg -wHin einem Fenster ausgeführt (ich nehme an, bis es wieder abstürzt; und kann die Ausgabe nach dem Absturz über SSH noch lesen). Ich habe keinen physischen Zugriff auf den Computer. Bitten Sie meinen Host, den BIOS-Speicher und die Festplattentests auszuführen?

— Brian Graham