Was bedeuten diese Festplattenfehler in Syslog?


13

Ich habe meinen Überwachungsserver gerade zum ersten Mal seit einiger Zeit neu gestartet und Folgendes füllt den Bildschirm aus:

Jul 11 23:52:30 monit kernel: [   25.255908] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
Jul 11 23:52:30 monit kernel: [   25.256170] ata1.00: BMDMA stat 0x24
Jul 11 23:52:30 monit kernel: [   25.256278] ata1.00: failed command: READ DMA
Jul 11 23:52:30 monit kernel: [   25.256410] ata1.00: cmd c8/00:c0:20:68:35/00:00:00:00:00/e0 tag 0 dma 98304 in
Jul 11 23:52:30 monit kernel: [   25.256416]          res 51/40:9f:41:68:35/00:00:00:00:00/e0 Emask 0x9 (media error)
Jul 11 23:52:30 monit kernel: [   25.256809] ata1.00: status: { DRDY ERR }
Jul 11 23:52:30 monit kernel: [   25.256933] ata1.00: error: { UNC }
Jul 11 23:52:30 monit kernel: [   25.304388] ata1.00: configured for UDMA/66
Jul 11 23:52:30 monit kernel: [   25.304430] ata1: EH complete

. . . 

Jul 11 23:52:30 monit kernel: [   25.552451] sd 0:0:0:0: [sda] Unhandled sense code
Jul 11 23:52:30 monit kernel: [   25.552462] sd 0:0:0:0: [sda]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jul 11 23:52:30 monit kernel: [   25.552475] sd 0:0:0:0: [sda]  Sense Key : Medium Error [current] [descriptor]
Jul 11 23:52:30 monit kernel: [   25.552490] Descriptor sense data with sense descriptors (in hex):
Jul 11 23:52:30 monit kernel: [   25.552498]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
Jul 11 23:52:30 monit kernel: [   25.552529]         00 35 68 41 
Jul 11 23:52:30 monit kernel: [   25.552543] sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed
Jul 11 23:52:30 monit kernel: [   25.552559] sd 0:0:0:0: [sda] CDB: Read(10): 28 00 00 35 68 20 00 00 c0 00
Jul 11 23:52:30 monit kernel: [   25.552587] end_request: I/O error, dev sda, sector 3500097
Jul 11 23:52:30 monit kernel: [   25.556607] ata1: EH complete

Ich weiß bereits, dass ich die Festplatte austauschen muss (Kosten für Daten> Kosten für Festplatte), aber ich möchte nach eigenem Wissen wissen, was tatsächlich daran falsch ist.

Ja, unser Überwachungsserver hat kein RAID, nur eine Festplatte ... Schau mich nicht an ...


3
"Ja, unser Überwachungsserver hat kein RAID, nur eine Festplatte ... Schau mich nicht an ..." - nicht zu viel, wenn du gute Backups hast.
Janne Pikkarainen

2
Ich hoffe du hast gute Backups. Sie werden sie wahrscheinlich brauchen. Wenn der Überwachungsserver so wichtig ist, sollten die Kosten für den Austausch der Festplatte durch mindestens ein RAID 1 leicht zu rechtfertigen sein.
Michael Hampton

1
Selbst wenn Sie kein RAID haben, sollten Sie SMART-Daten für alle Ihre Festplatten überwachen.
James Youngman

Antworten:


16
sd 0:0:0:0: [sda]  Add. Sense: Unrecovered read error - auto reallocate failed

Das Laufwerk verfügt anscheinend über fehlerhafte Sektoren und kann diese nicht neu zuordnen (möglicherweise, weil keine freien Sektoren mehr vorhanden sind). Die Ausgabe von smartctl -a /dev/sdawürde Ihnen mehr Informationen über den Zustand des Laufwerks geben.


Ich habe auch gesehen, dass dieser Fehler bei einem einfachen Lesevorgang (beispielsweise beim Versuch, cpdie Datei zu lesen) auftritt . In diesem Fall war der Schaden an der Datei in dem Sektor, der beschädigt wurde, so schwerwiegend, dass die Daten nicht einmal rekonstruiert werden konnten, sodass der "Neuzuweisungs" -Fehler tatsächlich auftrat, bevor überhaupt versucht werden konnte, die Daten an einer anderen Stelle zu speichern.
Randall

12

Lassies Spruch "arf! Arf arf! Arf!". Was dumm ist, denn das hat nichts mit Timmy oder Brunnen zu tun . Aus diesem Grund nehmen Sie keine Sysadmin-Ratschläge von Hunden an.

Das Laufwerk gibt den Hinweis "Nicht wiederhergestellter Lesefehler - automatische Neuzuweisung fehlgeschlagen" aus. Dies bedeutet im Wesentlichen: "Ich habe versucht zu lesen, ich bin fehlgeschlagen, ich habe versucht mich zu erholen (lies den Sektor noch ein paar Mal, wende ein wenig ECC an und verschiebe die Daten nach ein Sektor, der nicht kaputt ist), und es hat nicht funktioniert ". Dies bedeutet wahrscheinlich (wie mgorven sagt), dass die Festplatte bereits überfüllt ist mit neu zugewiesenen Sektoren, da die Festplatte eine Weile abgestorben ist, aber ich denke auch, dass dies bedeuten kann, dass sie den Sektor überhaupt nicht wiederherstellen konnte (wiederholte Lesevorgänge) + ECC konnte keinen ansehnlichen Datenblock abrufen).

Wie auch immer, ja, die Fahrt ist sehr, sehr kaktusartig. Ihre Daten sehen auch nicht wirklich gesund aus.


1
Richtig - die SMART-Daten können Ihnen auch mitteilen, wie viele Sektoren bereits neu zugeordnet wurden.
James Youngman

3

Ich weiß, dass dies alt ist, aber nur für den Fall, dass noch jemand diesen Beitrag liest: "DD wird auch versuchen, die defekten Sektoren zu lesen" - gddrescue ist hier nützlich. Das tut es nicht (okay, aber nur einmal).


1

Erstellen Sie jetzt ein dd-Image oder eine rsync-Kopie dieser Festplatte ++, es sei denn, Sie verfügen über eine vollständige Sicherung, die eine bequeme Wiederherstellung dieser Box ermöglicht. Suchen Sie nach einer kompatiblen und funktionsfähigen Ersatzfestplatte.

Übrigens, UDMA / 66, ist das eine zehn Jahre alte PATA-Platte?


2
DD wird auch versuchen, den defekten Sektor (die defekten Sektoren) zu lesen.
Hennes

3
In der Regel nicht optimal ... Es gibt eine erweiterte Version namens ddrescue mit besserer Kontrolle über das Fehlerverhalten.
Rackandboneman

Das gibt es immer conv=noerror, aber ich bin mir nicht sicher, wie gut das auf einem kaputten Dateisystem funktioniert. Wahrscheinlich nicht schlechter als das Lesen der Daten Datei für Datei, aber sicherlich nicht besser ...
ein CVn

0

Wie bereits erwähnt, bedeutet dies wahrscheinlich, dass sich Ihr Laufwerk dem Ende seiner Lebensdauer nähert, jedoch nicht unbedingt sofort. Sie sollten ein fsckauf der Festplatte ausführen und versuchen, die Fehler zu reparieren ( Empfehlungen zum Beheben fehlerhafter Blöcke finden Sie im smartmontools-Wiki ) während länger.

Sie sollten jedoch sofort loslegen smartd(was Teil des smartmontoolsPakets ist) und die Berichte und / oder E-Mail-Benachrichtigungen im Auge behalten. Sie können auch eigene benutzerdefinierte Benachrichtigungen hinzufügen, indem Sie Skripte (in /etc/smartmontools/run.d/) erstellen , die von der aufgerufen werden smartd-runner.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.