Ich habe einen kleinen Heimserver, der um ein Lian Li PC-Q25-Gehäuse herum gebaut ist und dessen SATA-Backplate sich selbst als Hot-Plug-fähig bewirbt. Das Motherboard ist Asus P8H77-I. Ich habe 4 SATA-Laufwerke an die Backplate angeschlossen - zwei Paare in RAID1-Arrays. Das System läuft unter Centos 6.3 x86_64.
Eines der Laufwerke ist ausgefallen, daher habe ich das empfohlene Verfahren ausgeführt: synchronisiert, aus dem Array entfernt, ordnungsgemäß heruntergefahren und herausgezogen. Keine Katastrophe hier, ich konnte das Laufwerk herunterfahren hören und es erschienen keine Fehler im dmesg-Protokoll.
Nun ging ich davon aus, dass nach dem SATA-Standard die versetzten Stifte im Laufwerk ein sicheres Einstecken ohne plötzlichen Stromstoß gewährleisten würden. Wenn ich das Laufwerk hineinschiebe, kann ich die anderen Laufwerke langsamer fahren und für einen kurzen Moment auf ihre Köpfe klicken.
Das Überprüfen des dmesg-Protokolls ergab Folgendes:
ata1: exception Emask 0x10 SAct 0x0 SErr 0x4090000 action 0xe frozen
ata3.00: exception Emask 0x10 SAct 0x3ff007ff SErr 0x4890000 action 0xe frozen
ata3.00: irq_stat 0x08400040, interface fatal error, connection status changed
ata3: SError: { PHYRdyChg 10B8B LinkSeq DevExch }
ata3.00: failed command: WRITE FPDMA QUEUED
ata3.00: cmd 61/80:00:3f:81:ca/00:00:00:00:00/40 tag 0 ncq 65536 out
res 40/00:54:bf:81:ca/00:00:00:00:00/40 Emask 0x10 (ATA bus error)
ata3.00: status: { DRDY }
(Die letzten ata3.00-Nachrichten werden ungefähr 20 Mal mit unterschiedlichen Nummern, aber demselben Text wiederholt.)
Die letzten Zeilen sind:
ata3.00: status: { DRDY }
ata3: hard resetting link
ata2: exception Emask 0x50 SAct 0x0 SErr 0x4090800 action 0xe frozen
ata2: irq_stat 0x00400040, connection status changed
ata2: SError: { HostInt PHYRdyChg 10B8B DevExch }
ata2: hard resetting link
ata1: irq_stat 0x00400040, connection status changed
ata1: SError: { PHYRdyChg 10B8B DevExch }
ata1: hard resetting link
ata1: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
ata1.00: configured for UDMA/133
ata1: EH complete
ata2: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata2.00: configured for UDMA/133
ata2: EH complete
ata3.00: configured for UDMA/133
ata3: EH complete
Auch meine Logwatch meldete die folgenden Änderungen in den SMART-Daten:
/dev/disk/by-path/pci-0000:00:1f.2-scsi-2:0:0:0 [SAT] :
Prefailure: Raw_Read_Error_Rate (1) changed to
100,
Prefailure: Reallocated_Sector_Ct (5) changed to
200,
Prefailure: Spin_Up_Time (3) changed to
100,
Usage: Seek_Error_Rate (7) changed to
200,
/dev/disk/by-path/pci-0000:00:1f.2-scsi-3:0:0:0 [SAT] :
Usage: Calibration_Retry_Count (11) changed to
100,
Usage: Load_Retry_Count (223) changed to
100,
Device: /dev/disk/by-path/pci-0000:00:1f.2-scsi-2:0:0:0 [SAT], Self-Test Log error count increased from 0 to 1
Am folgenden Tag enthielt das SMART-Protokoll noch verdächtige Einträge:
/dev/disk/by-path/pci-0000:00:1f.2-scsi-0:0:0:0 [SAT] :
Usage: Seek_Error_Rate (7) changed to
200,
/dev/disk/by-path/pci-0000:00:1f.2-scsi-1:0:0:0 [SAT] :
Usage: Seek_Error_Rate (7) changed to
200,
/dev/disk/by-path/pci-0000:00:1f.2-scsi-2:0:0:0 [SAT] :
Usage: Multi_Zone_Error_Rate (200) changed to
200,
/dev/disk/by-path/pci-0000:00:1f.2-scsi-3:0:0:0 [SAT] :
Usage: Throughput_Performance (2) changed to
56,
/dev/disk/by-path/pci-0000:00:1f.2-scsi-4:0:0:0 [SAT] :
Prefailure: Raw_Read_Error_Rate (1) changed to
116, 117,
Usage: ECC_Uncorr_Error_Count (195) changed to
116, 117,
Anscheinend hat das Sata-Backend das Laufwerk sofort brutal eingeschaltet, was möglicherweise dazu führte, dass die Spannung für einen Moment abfiel.
Mein Fehler war vielleicht, alle vier Laufwerke an dieselbe Netzteilschiene anzuschließen und zu erwarten, dass das Netzteil (wenn auch ein 800-W-Seasonic mit guten Spezifikationen) den plötzlichen Stromverbrauch bewältigt.
Die SATA-Rückplatte verfügt über zwei Molex-Anschlüsse auf der Rückseite für die Stromversorgung. Ich werde sie an separate Netzteilschienen anschließen, um eine gleichmäßigere Ausgangsleistung zu gewährleisten.
Gibt es eine Möglichkeit, zu verhindern, dass sich das Laufwerk sofort dreht, wenn ich es wieder in das Laufwerkspaket stecke?
Habe ich möglicherweise nur die Laufwerke beschädigt (können Sie diesen Protokollmeldungen entnehmen)?
Vielen Dank!