Wir haben einen Linux-Server, der seit 3 Jahren intensiv genutzt wird. Wir betreiben eine Reihe von virtualisierten Servern, von denen sich einige nicht gut verhalten haben, und für eine beträchtliche Zeit wurde die Io-Kapazität des Servers überschritten, was zu einem schlechten Iowait führte. Es verfügt über 4 Barracuda-Sata-Laufwerke mit 500 GB, die an einen 3com-RAID-Controller angeschlossen sind. 1 Laufwerk hat das Betriebssystem und die anderen 3 sind Setup-RAID-5.
Jetzt haben wir eine Debatte über den Zustand der Antriebe und ob sie aktiv ausfallen.
Hier ist ein Teil der Ausgabe für 1 der 4 Festplatten. Sie alle haben relativ ähnliche Statistiken:
Revisionsnummer der SMART Attributes-Datenstruktur: 10 Herstellerspezifische SMART-Attribute mit Schwellenwerten: ID # ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE AKTUALISIERT WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 118 099 006 Pre-Fail Always - 169074425 3 Spin_Up_Time 0x0003 095 092 000 Pre-Fail Always - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 26 5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-Fail Always - 0 7 Seek_Error_Rate 0x000f 077 060 030 Pre-Fail Always - 200009354607 9 Power_On_Hours 0x0032 069 069 000 Old_age Always - 27856 10 Spin_Retry_Count 0x0013 100 100 097 Pre-Fail immer - 1 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 26 184 Unknown_Attribute 0x0032 100 100 099 Old_age Always - 0 187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0 188 Unknown_Attribute 0x0032 100 100 000 Old_age Always - 1 189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0 190 Airflow_Temperature_Cel 0x0022 071 060 045 Old_age Always - 29 (Lebensdauer, min. / Max. 26/37) 194 Temperature_Celsius 0x0022 029 040 000 Old_age Always - 29 (0 21 0 0) 195 Hardware_ECC_Recovered 0x001a 046 033 000 Old_age Always - 169074425 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 SMART Error Log Version: 1 Keine Fehler protokolliert
Meine Interpretation ist, dass wir keine fehlerhaften Sektoren oder andere Anzeichen dafür hatten, dass eines der Laufwerke aktiv ausfällt.
Die hohen Werte für Raw_Read_Error_Rate und Seek_Error_Rate werden jedoch als Anzeichen dafür angezeigt, dass die Laufwerke aussterben.