Wie interpretiert man diese smartctl (smartmon) Daten?

20

Wir haben einen Linux-Server, der seit 3 Jahren intensiv genutzt wird. Wir betreiben eine Reihe von virtualisierten Servern, von denen sich einige nicht gut verhalten haben, und für eine beträchtliche Zeit wurde die Io-Kapazität des Servers überschritten, was zu einem schlechten Iowait führte. Es verfügt über 4 Barracuda-Sata-Laufwerke mit 500 GB, die an einen 3com-RAID-Controller angeschlossen sind. 1 Laufwerk hat das Betriebssystem und die anderen 3 sind Setup-RAID-5.

Jetzt haben wir eine Debatte über den Zustand der Antriebe und ob sie aktiv ausfallen.

Hier ist ein Teil der Ausgabe für 1 der 4 Festplatten. Sie alle haben relativ ähnliche Statistiken:

Revisionsnummer der SMART Attributes-Datenstruktur: 10
Herstellerspezifische SMART-Attribute mit Schwellenwerten:
ID # ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE AKTUALISIERT WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 118 099 006 Pre-Fail Always - 169074425
  3 Spin_Up_Time 0x0003 095 092 000 Pre-Fail Always - 0
  4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 26
  5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-Fail Always - 0
  7 Seek_Error_Rate 0x000f 077 060 030 Pre-Fail Always - 200009354607
  9 Power_On_Hours 0x0032 069 069 000 Old_age Always - 27856
 10 Spin_Retry_Count 0x0013 100 100 097 Pre-Fail immer - 1
 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 26
184 Unknown_Attribute 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 1
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 071 060 045 Old_age Always - 29 (Lebensdauer, min. / Max. 26/37)
194 Temperature_Celsius 0x0022 029 040 000 Old_age Always - 29 (0 21 0 0)
195 Hardware_ECC_Recovered 0x001a 046 033 000 Old_age Always - 169074425
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0

SMART Error Log Version: 1
Keine Fehler protokolliert

Meine Interpretation ist, dass wir keine fehlerhaften Sektoren oder andere Anzeichen dafür hatten, dass eines der Laufwerke aktiv ausfällt.

Die hohen Werte für Raw_Read_Error_Rate und Seek_Error_Rate werden jedoch als Anzeichen dafür angezeigt, dass die Laufwerke aussterben.

linux smartctl

— gview
quelle

1

Es gibt hier eine gute Beschreibung (zu lang, um sie erneut zu veröffentlichen, folgen Sie dem Link): lime-technology.com/wiki/Understanding_SMART_Reports Falls der Link ausfällt , einige wichtige Anführungszeichen: "Dies ist ein Indikator für die aktuelle Fehlerrate von Leseoperationen für den physischen Sektor auf niedriger Ebene. Im normalen Betrieb gibt es IMMER eine kleine Anzahl von Fehlern, [...] bei denen kein Problem mit dem Laufwerk besteht. " und "BITTE ignorieren Sie die RAW_VALUE-Nummer vollständig! Nur Seagates geben den Rohwert an. Ja, dies scheint die Anzahl der Rohlesefehler zu sein, sollte jedoch vollständig ignoriert werden."

— Konrad Gajewski

7

Nach meiner Erfahrung haben Seagates seltsame Zahlen für diese beiden SMART-Attribute. Bei der Diagnose eines Seagates ignoriere ich diese und schaue mir andere Bereiche wie die Neuzuordnung der Sektoren genauer an. Wenn Sie Zweifel haben, tauschen Sie das Laufwerk aus, aber selbst brandneue Seagates haben hohe Nummern für diese Attribute.

— hwilbanks
quelle

57

Für Seagate-Festplatten (und möglicherweise auch für einige ältere von WD) sind Seek_Error_Rate und Raw_Read_Error_Rate 48-Bit-Zahlen, wobei die höchstwertigen 16 Bit eine Fehleranzahl und die niedrigen 32 Bit eine Anzahl von Operationen sind.

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

Ihre Festplatte hat also 2440858991 Suchvorgänge ausgeführt, von denen 46 fehlgeschlagen sind. Meine Erfahrung mit Seagate-Laufwerken zeigt, dass sie tendenziell ausfallen, wenn die Anzahl der Fehler 1000 übersteigt. YMMV.

— Tsuna
quelle

7

Daher wünschte ich, ich hätte diese Informationen zurück, als ich die Frage ursprünglich stellte.

— Gview

1

Das ist sehr nützlich. Hat mich vor Panik gerettet.

— Halsafar

9

Die RAW_VALUES-Werte für "Suchfehlerrate" und "Raw-Lesefehlerrate" sind für alle außer der Unterstützung von Seagate praktisch bedeutungslos. Wie bereits erwähnt, weisen Rohwerte von Parametern wie "Neuzuweisung der Sektoranzahl" oder Einträge im Fehlerprotokoll des Laufwerks eher auf eine höhere Ausfallwahrscheinlichkeit hin.

Sie können sich jedoch die interpretierten Daten in den Spalten VALUE, WORST und THRESH ansehen, die als Messwerte gelesen werden sollen:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

Dies bedeutet, dass Ihre Suchfehlerrate derzeit als "77% gut" eingestuft wird und von SMART als Problem gemeldet wird, wenn sie "30% gut" erreicht. Es war einmal so niedrig wie "60% gut", hat sich aber seitdem magisch erholt. Beachten Sie, dass die interpretierten Werte intern von der SMART-Logik des Laufwerks berechnet werden und die genaue Berechnung möglicherweise vom Hersteller veröffentlicht oder nicht veröffentlicht und in der Regel vom Benutzer nicht geändert werden kann.

Persönlich betrachte ich ein Laufwerk mit Fehlerprotokolleinträgen als "fehlerhaft" und fordere einen Austausch, sobald sie auftreten. Insgesamt haben sich SMART-Daten jedoch als eher schwacher Indikator für die Ausfallprognose herausgestellt, wie ein von Google veröffentlichtes Forschungspapier ergab .

— das-wabbit
quelle

4

Ich habe festgestellt, dass diese Diskussion etwas alt ist, möchte aber meine 2 Cent hinzufügen. Ich habe festgestellt, dass die intelligenten Informationen ein guter Indikator für Pre-Fail sind. Wenn eine intelligente Schwelle ausgelöst wird, tauschen Sie das Laufwerk aus. Dafür sind diese Schwellen gedacht.

Die meiste Zeit werden Sie schlechte Sektoren sehen. Dies ist ein sicheres Zeichen dafür, dass das Laufwerk langsam ausfällt. SMART hat mich viele Male gerettet. Ich verwende Software-RAID 1 und es ist sehr hilfreich, da Sie einfach das fehlerhafte Laufwerk austauschen und das Array neu erstellen.

Ich führe auch wöchentlich einen kurzen und einen langen Selbsttest durch.

smartctl -t short /dev/sda
smartctl -t long /dev/sda

Oder fügen Sie die Datei /etc/smartd.conf hinzu und lassen Sie sich bei Fehlern per E-Mail benachrichtigen

/dev/sda -s L/../../3/22 -I 194 -m someemail@somedomain
/dev/sdb -s L/../../7/22 -I 194 -m someemail@somedomain

Stellen Sie sicher, dass Sie logwatch installieren und root an eine E-Mail-Adresse umleiten, und überprüfen Sie die täglichen E-Mails von logwatch. Von SMARTD ausgelöste Flags werden dort angezeigt, aber es hilft nichts, wenn niemand dies regelmäßig überwacht.

— Fred Flint
quelle

1

Ja, diese Felder sehen schlecht aus, aber ich vertraue (nicht mehr) den von smart gemeldeten Informationen (mein Testgerät hat eine Festplatte, die vor langer Zeit tot sein sollte, wenn Sie die Daten mit smartctrl lesen). Tatsache ist, dass Sie gemeldet haben High Iowait und die Laufwerke sind 3 Jahre alt. Dies sollte ausreichen, damit Sie die Laufwerke wechseln können.

— Migabi
quelle

1

Aus verschiedenen Gründen müssen wir unsere Investitionen in die Hardware maximieren. Das iowait hatte mit der lächerlichen Last sowie einigen Konfigurationsfehlern zu tun, die wir beim Einrichten der Box gemacht haben.

— Gview

0

Es tut uns leid, in diesem Beitrag Nekromantie begangen zu haben, aber meiner Erfahrung nach gehen die Felder "Raw Read Error Rate" und "Hardware ECC Recovered" für ein Seagate-Laufwerk buchstäblich über den gesamten Bereich und erhöhen sich ständig in den Billionenbereich, in dem sie sich befinden Gehen Sie zurück auf Null, um den Vorgang fortzusetzen. Ich habe einen Seagate ST9750420AS, der dieses Problem seit dem ersten Tag hat und auch nach einigen Jahren und über 3500 Betriebsstunden noch einwandfrei funktioniert.

Ich denke, diese Felder können ignoriert werden, wenn Sie in Ihrem Fall eines ausführen. Stellen Sie einfach sicher, dass die beiden Felder die gleiche Nummer melden und ständig synchron sind. Wenn sie nicht ... na ja ... könnte das tatsächlich ein Problem bedeuten.

— Ryan Gandy
quelle

0

Verwenden Sie den Online-Javascript-Rechner, um die Berechnungen dieser Antwort zu automatisieren :

https://yksi.ml/

Dies wird Ihnen sagen:

Gesamtzahl der Operationen
Anzahl fehlgeschlagener Operationen

Der Rechner ist gültig für Seagates:

Fehlerrate suchen
Raw Read Error Rate
Hardware-ECC wiederhergestellt

Weitere Informationen zur Berechnung der normalisierten Werte (zwischen 0 und 100) finden Sie in diesem Artikel .

— Tom Hale
quelle