Heute Nachmittag hat jemand in unserem Büro beschlossen, den Stecker aus unserem Server zu ziehen, weil es draußen stürmte. Sie haben es nicht heruntergefahren, sondern nur den Stecker herausgezogen, während es lief.
Der Server verfügt über 4 SATA-Laufwerke in einer Software-RAID 10-Konfiguration und LVM, das über dem RAID ausgeführt wird. Auf dem Server wird CentOS 6.2 Minimal ausgeführt und es handelt sich um einen Host einer virtuellen Maschine, der KVM verwendet. Zu dem Zeitpunkt, als der Netzstecker gezogen wurde, liefen viele Gastcomputer auf dem Computer. Jeder Gast verfügt über eine oder mehrere LVM-Partitionen, die er direkt als Festplatten verwendet. Die Gastpartitionen sind EXT3, EXT4 und NTFS. Das Host-Betriebssystem befindet sich auf einer EXT4-Partition.
Später, als die Stromversorgung wieder hergestellt wurde, steckte diese Person sie wieder ein und sie startete. Da sie es angeschlossen haben, ohne vorher einen Monitor angeschlossen zu haben, ist es nicht möglich zu sehen, was auf dem Bildschirm angezeigt wurde. Ich habe jetzt versucht, einen Monitor anzuschließen, aber es funktioniert nur, wenn der Monitor beim Booten angeschlossen ist. Ich habe es so belassen, wie es ist, bis ich einen Rat bekommen kann, da ich nichts (weiter) vermasseln möchte.
Ich kann über SSH in den Host gelangen. Ich habe es noch nicht neu gestartet, falls sich irgendwo in einem Protokoll etwas befindet, das nützlich sein könnte.
Was ich tun muss, ist, alle Festplatten und Partitionen auf Datenintegrität zu überprüfen, wenn dies überhaupt möglich ist. Ich denke, RAID 10 verwendet eine Art speicherbasierten Cache und ich mache mir Sorgen, dass die Laufwerke inkonsistent sind oder dass Dateien beschädigt sind, wenn der Cue Dinge enthält, die auf das Laufwerk geschrieben werden können, die noch nicht geschrieben wurden.
[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1]
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
102388 blocks super 1.0 [4/4] [UUUU]
md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
bitmap: 0/15 pages [0KB], 65536KB chunk
md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
unused devices: <none>
Es stört mich auch, dass es meine Arrays "Near-Copies" nennt. Ist das normal?
Welche Art von Festplattenprüfungen sollte ich durchführen, um sicherzustellen, dass die Laufwerke und Daten in Ordnung sind? Gibt es noch andere Dinge, die ich überprüfen sollte?
AKTUALISIEREN
Ausgabe von mdadm --detail
[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
Version : 1.1
Creation Time : Sat Feb 25 09:26:20 2012
Raid Level : raid10
Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Sun Mar 11 12:59:30 2012
State : active
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0
Layout : near=2
Chunk Size : 512K
Name : othello.myserver.com:0 (local to host othello.myserver.com)
UUID : 58ba40ab:12516733:e3779362:68200fdd
Events : 2208
Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
1 8 19 1 active sync /dev/sdb3
2 8 35 2 active sync /dev/sdc3
3 8 51 3 active sync /dev/sdd3