Wie überprüfe ich den CentOS 6 Server VM Host nach einem Stromausfall?

9

Heute Nachmittag hat jemand in unserem Büro beschlossen, den Stecker aus unserem Server zu ziehen, weil es draußen stürmte. Sie haben es nicht heruntergefahren, sondern nur den Stecker herausgezogen, während es lief.

Der Server verfügt über 4 SATA-Laufwerke in einer Software-RAID 10-Konfiguration und LVM, das über dem RAID ausgeführt wird. Auf dem Server wird CentOS 6.2 Minimal ausgeführt und es handelt sich um einen Host einer virtuellen Maschine, der KVM verwendet. Zu dem Zeitpunkt, als der Netzstecker gezogen wurde, liefen viele Gastcomputer auf dem Computer. Jeder Gast verfügt über eine oder mehrere LVM-Partitionen, die er direkt als Festplatten verwendet. Die Gastpartitionen sind EXT3, EXT4 und NTFS. Das Host-Betriebssystem befindet sich auf einer EXT4-Partition.

Später, als die Stromversorgung wieder hergestellt wurde, steckte diese Person sie wieder ein und sie startete. Da sie es angeschlossen haben, ohne vorher einen Monitor angeschlossen zu haben, ist es nicht möglich zu sehen, was auf dem Bildschirm angezeigt wurde. Ich habe jetzt versucht, einen Monitor anzuschließen, aber es funktioniert nur, wenn der Monitor beim Booten angeschlossen ist. Ich habe es so belassen, wie es ist, bis ich einen Rat bekommen kann, da ich nichts (weiter) vermasseln möchte.

Ich kann über SSH in den Host gelangen. Ich habe es noch nicht neu gestartet, falls sich irgendwo in einem Protokoll etwas befindet, das nützlich sein könnte.

Was ich tun muss, ist, alle Festplatten und Partitionen auf Datenintegrität zu überprüfen, wenn dies überhaupt möglich ist. Ich denke, RAID 10 verwendet eine Art speicherbasierten Cache und ich mache mir Sorgen, dass die Laufwerke inkonsistent sind oder dass Dateien beschädigt sind, wenn der Cue Dinge enthält, die auf das Laufwerk geschrieben werden können, die noch nicht geschrieben wurden.

[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1] 
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
      102388 blocks super 1.0 [4/4] [UUUU]

md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
      1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
      bitmap: 0/15 pages [0KB], 65536KB chunk

md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
      1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]

unused devices: <none>

Es stört mich auch, dass es meine Arrays "Near-Copies" nennt. Ist das normal?

Welche Art von Festplattenprüfungen sollte ich durchführen, um sicherzustellen, dass die Laufwerke und Daten in Ordnung sind? Gibt es noch andere Dinge, die ich überprüfen sollte?

AKTUALISIEREN

Ausgabe von mdadm --detail

[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
        Version : 1.1
  Creation Time : Sat Feb 25 09:26:20 2012
     Raid Level : raid10
     Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
  Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Sun Mar 11 12:59:30 2012
          State : active 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : othello.myserver.com:0  (local to host othello.myserver.com)
           UUID : 58ba40ab:12516733:e3779362:68200fdd
         Events : 2208

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3

— Nick
quelle

3

Das RAID ist in Ordnung, alle UUUUs bedeuten, dass alle Festplatten im Array aktiv sind. Darüber würde ich mir vorerst keine Sorgen machen.

Wenn Sie für die VMs fscks ausführen möchten, stoppen Sie die VMs und führen Sie sie aus

fsck.ext3 (ext4, etc) /path/to/lvm (normalerweise wie / dev / vg-name / lv-name)

Wenn Sie KVM verwenden, sollten Sie in der Lage sein, virshalles zu tun, was Sie für die VMs benötigen. Hier ist ein Link zur Virsh-Manpage http://linux.die.net/man/1/virsh

Wenn Sie wirklich Festplattenprüfungen für Ihre RAID-Arrays ausführen möchten, müssen Sie im Einzelbenutzermodus neu starten oder von einer Live-CD starten, damit Sie die einzelnen / dev / mdX-Geräte überprüfen können. Da das primäre Dateisystem EXT4 ist, würde ich mich nicht darum kümmern, es ist viel besser als EXT3 mit Stromausfällen.

— jemmille
quelle

+1, werde es morgen versuchen.

— Nick

1

Versuchen Sie mdadm --detail / dev / md0 (dasselbe für md1 und md2).

Dann probieren Sie den hier gegebenen Rat: http://linas.org/linux/raid.html

— Ode
quelle

Ich habe die Ausgabe von mdadm --detail /dev/md0oben gepostet . Ich habe die Anleitung gelesen, die Sie verlinkt haben, aber EXT4-Dateisysteme werden nicht erwähnt, oder was kann ich konkret tun, um die Integrität zu überprüfen?

— Nick

Der Dateisystemtyp sollte für die RAID-Integrität keine Rolle spielen. Wenn Sie einen Wartungszeitraum haben, können Sie die betroffenen Dateisysteme und fsckdiese aushängen . Wenn Sie die RAID-Geräte selbst überprüfen möchten, können Sie Folgendes tun echo "check" > /sys/block/md0/md/sync_action. Oder geben Sie "Reparieren" an, damit eine Art MDADM-Reparatur durchgeführt wird.

— cjc

Ich werde es morgen versuchen und mich melden.

— Nick