Gibt es einen Grund, die Festplatte eines Servers zu ändern, bevor ein Fehler auftritt?


11

Nur eine kurze Frage: Gibt es einen Grund, die Festplatte eines Servers nach x Jahren zu ändern, bevor ein Fehler auftritt (dies wird irgendwann der Fall sein), oder sollte ich sie einfach so lange belassen, bis ein Fehler auftritt? Ich habe wenig Erfahrung mit der eigentlichen Serververwaltung, daher frage ich mich ...


Ich hatte nicht erwartet, so viele Antworten zu erhalten, wow :) Nachdem ich alle überprüft und berücksichtigt hatte, dass a) die Festplatten des Servers für diese Zwecke geeignet sind b) die Sicherung absolut garantiert ist (mit RAID + Replication Slave + tägliche Sicherung auf eine externe Quelle) Ich finde keinen Grund, einen Laufwerkswechsel vorzuschlagen. Vielen Dank an alle!
Spiros

Antworten:


8

Ein guter Grund, dies zu ändern, ist, wenn Sie Ihrer Liste der zu erledigenden Aufgaben eine weitere Aufgabe hinzufügen und gleichzeitig die Wahrscheinlichkeit erhöhen möchten, dass etwas schief geht.

Abgesehen von allen Scherzen gibt es wirklich keinen Grund, von dem ich gehört habe, das Laufwerk vorzeitig zu wechseln. Wenn Sie über RAID verfügen, verfügen Sie bereits über einen Schutz (vorausgesetzt, Sie verfügen über angemessene Backups), und Sie erzeugen kein Abfallmaterial in Form eines toten Laufwerks, das entsorgt werden muss, und Sie müssen nicht unnötig daran arbeiten, es zu beseitigen vertrauliche Daten vom Laufwerk. Sie geben kein zusätzliches Geld für neue Laufwerke aus und schützen sich auch nicht proaktiv vor Dingen, die ohnehin noch schief gehen könnten, wie z. B. einem fehlerhaften Laufwerkscontroller, der als Fehlerquelle für Laufwerke nicht üblich ist, aber auftreten kann.

Auf der anderen Seite kann dies Ihnen helfen, nicht behebbare Laufwerksfehler zu entdecken, die keine Alarme auf der RAID-Einheit auslösen, wie dies bei RAID 5 der Fall war In diesem Fall hilft Ihnen eine ordnungsgemäße Sicherung bei der Wiederherstellung.) Ein RAID-Level, der die heutigen größeren Laufwerkskapazitäten und nicht behebbaren Fehlertoleranzen berücksichtigt, hätte uns geholfen, wenn nicht, Sicherungen den Tag zu retten.

Die meisten Administratoren verfügen über einen anständigen RAID- und Backup-Plan, sodass kein unnötiger zusätzlicher Abfall entsteht, wenn die Laufwerke unnötig ausgetauscht werden.


6

Das einzige Mal, wenn ich dies in Betracht ziehe, könnte ich es in Betracht ziehen, wenn ich eine Reihe von Festplatten aus demselben Stapel hatte und andere im Stapel anfingen, fehlzuschlagen.

Wenn ich wenig Platz hätte, würde ich es sicher tun - aber aus keinem anderen Grund als nur, weil es alt wird? Nein, denn im Durchschnitt ist die Ausfallrate im ersten Jahr ähnlich wie in allen anderen Jahren . (Beachten Sie, dass die Grafik das erste Jahr über 3 Monate, 6 Monate, 1 Jahr aufteilt, aber Sie müssen sie alle addieren, um die Wahrscheinlichkeit eines Ausfalls nach 1 Jahr zu erhalten.) Bei einer hohen Festplattenauslastung ist es wahrscheinlicher, dass sie im ersten Jahr ausfällt als in den nächsten drei Jahren zusammen.

Die einzige Korrelation zu einem späten Laufwerksausfall bestand in heißeren Räumen, und wir halten unsere Serverräume kühl.


5

Ich bin alles dafür, proaktiv zu sein, aber ich habe es nie getan und noch nie von jemandem gehört, der es tut. Vermutlich haben Sie eine Art RAID-Setup und regelmäßig gültige Sicherungen für die betreffenden Systeme.


5
+1, habe es nie in Betracht gezogen. Das Ersetzen einer Festplatte für alle Fälle und das absichtliche Auslösen einer Array-Neuerstellung scheint nicht der beste Weg zu sein, um die verbleibenden Produktionsfestplatten zu "trainieren". Es ist schwieriger, dem Chef zu erklären, warum das System ausgefallen ist, wenn der Wiederaufbau fehlgeschlagen ist.
Jscott

3
Ich ersetze Festplatten mit SMART-Fehlern, aber ich würde sie als fehlgeschlagen betrachten, selbst wenn sie technisch noch funktionieren.
Chris S

4

Ja, Leistung und Kapazität. Wenn die alte Festplatte 70 MB / s lang anhaltende Lesevorgänge und 100 IOPS ausführt und der potenzielle Ersatz 200 MB / s lang anhaltende Lesevorgänge und 175 IOPS ausführt und außerdem die dreifache Kapazität hat, ist es möglicherweise gerechtfertigt, neue Laufwerke zu kaufen und alte gegen neue auszutauschen Leistungs- / Kapazitätsgründe. (und diese Zahlen sind vollständig erfunden, der Punkt ist neuer kann deutlich schneller sein).

Was machen Sie nun mit den alten Laufwerken? Sie können sie auf einem Testserver verwenden oder zu einer Sicherung auf einem Festplattenarray hinzufügen oder sie als Notfallersatzteile behalten. Oder Sie wischen sie einfach ab und senden sie zur Entsorgung weg.

Ihr durchschnittlicher Server ist heutzutage mehr an E / A gebunden als an Prozessoren (oder zumindest alle von mir). Wenn Sie also einen wirklich alten Server haben, der keine Probleme mit der CPU-Zeit oder dem Speichermangel hat, haben Sie wahrscheinlich Raum, um die Leistung erheblich zu verbessern, indem Sie Festplatten ersetzen, die mehrere Generationen hinter dem liegen, was Sie leicht kaufen können, um sie zu ersetzen.


3

Es hängt von der Auswirkung ab, ob die Festplatte fehlerhaft ist.

Wenn Sie kein RAID haben
Wenn Sie sich nicht um die Serververfügbarkeit kümmern, weil der Dienst gestoppt werden kann oder weil er hochverfügbar ist und wenn Sie eine funktionierende Datensicherung haben. Ich würde Ok sagen, lassen Sie das Laufwerk sterben und ändern Sie es und stellen Sie Daten wieder her, wenn es ausfällt.
Wenn Sie sich für die Verfügbarkeit interessieren, werde ich sagen, verwenden Sie RAID;)

Wenn Sie ein RAID haben (1, 5, 6, ...),
würde ich sagen, warum die Festplatte vor dem Fehler wechseln? RAID (und Backup) ist dafür da. Das Ändern einer Festplatte für den Fall, dass sie ausfallen könnte, birgt das Risiko, dass etwas kaputt geht (die Wiederherstellung eines Schlachtzugs ist immer riskant).

Aber es ist nur mein Standpunkt! Wenn Sie der Meinung sind, dass Ihr Laufwerk möglicherweise zu alt ist, möchten Sie möglicherweise auch Ihren Server ändern.


2

Einige Festplatten sterben in 1 Stunde ab, andere dauern 2 Jahrzehnte.

Wenn es nicht fehlgeschlagen ist oder fehlschlägt (was Sie normalerweise über SMART-Überwachung oder Leistungsprobleme feststellen können), ist der einzige andere Grund, es zu verwerfen, wenn es nicht groß genug oder schnell genug für Ihre Zwecke ist.


1
Überwachen Sie einfach das Laufwerk mit SMART und es zeigt normalerweise die Anzeichen eines Fehlers, bevor es zu spät ist.
Prof. Moriarty

Die Massenfestplattenstudie von @Prof Google zeigte, dass SMART in 44% bis 72% der Fälle "normalerweise" zuverlässig war. static.googleusercontent.com/external_content/untrusted_dlcp/…
jscott

2

Bei Festplatten stellt sich nicht die Frage, ob sie ausfallen, sondern wann . Es handelt sich um mechanische Geräte (es sei denn, Sie verwenden SSDs, haben jedoch ihre eigenen Einschränkungen), sodass sie früher oder später ausfallen.

Festplattenanbieter tendieren dazu, ihre Herstellungsprozesse so billig wie möglich zu gestalten, da selbst ein Cent pro Festplatte gespart werden kann, wenn Sie Tausende von ihnen produzieren und verkaufen. Aber sie möchten natürlich nicht, dass ihre Festplatten vor Ablauf der Garantiezeit ausfallen, oder sie würden sie die ganze Zeit kostenlos ersetzen. Sie geben also gerne so viel aus, wie nötig, damit sie so lange halten, wie die Garantie sie abdeckt ... aber keinen Cent mehr.

Das Endergebnis ist: Die meisten Festplatten fallen in der Regel kurz nach Ablauf der Garantiezeit aus. Dies ist natürlich keine allgemeine Regel, es handelt sich nur um Statistiken, und Ihre Festplatte kann jetzt oder so lange ausfallen, bis Sie sie nicht mehr benötigen. Statistisch gesehen gibt es jedoch viele Festplatten, die einige Tage oder Monate nach ihrem Ausfall ausfallen Garantie abgelaufen.

Natürlich kann es teuer sein, neue zu kaufen, wenn Sie sie noch nicht benötigen ... aber das Ersetzen nach Ablauf der Garantie und deren Ausfall ist ohnehin kostspielig.

Wenn Sie nun einen Weg finden könnten, sie zum Scheitern zu bringen, während dies noch gerechtfertigt ist (und dabei keine Daten verlieren, dh gute RAID- UND Backups haben), wäre das optimal ;-)


2

Ich würde ein funktionierendes Laufwerk nicht mehr ersetzen als ein funktionierendes Netzteil. Beide werden irgendwann scheitern, aber es macht weder technisch noch finanziell Sinn, sie ohne wichtigen Grund zu ersetzen. Ersetzen Sie sie, wenn sie Anzeichen von Problemen zeigen.

Bei Festplatten geht der Trend dahin, dass ein vorzeitiger Ausfall einer Festplatte dies höchstwahrscheinlich im ersten Jahr tun wird. Laufwerke, die seit 6 Jahren störungsfrei laufen, können sich normalerweise darauf verlassen, dass sie noch mindestens einige Jahre weiterarbeiten. Natürlich gibt es viele Ausnahmen, aber es ist der allgemeine Trend.


1
Sie verlieren (normalerweise) keine Daten, wenn eine Stromversorgung ausfällt ...
Massimo

1
@Massimo - Richtig, aber auf einem Server verlieren Sie normalerweise auch keine Daten, wenn ein Laufwerk ausfällt. Wenn es keine Redundanz gibt, handelt es sich meiner Meinung nach nur um eine verherrlichte Workstation, nicht um einen echten Server.
John Gardeniers

1

Beachten Sie außerdem, dass die meisten Laufwerke der Serverklasse strengere Fertigungsanforderungen haben und in der Regel zuverlässiger sind als Desktop-Laufwerke mit niedrigem Preis-Leistungs-Verhältnis. Abgesehen von den Gefahren, ein "gutes" Laufwerk zu ersetzen, falls es möglicherweise ausfällt, kann dies für ein großes Array eine große Geldsumme bedeuten.

Wenn Sie ein RAID verwenden, ist es daher eine gute Idee, mindestens ein Ersatzlaufwerk auf dem Server zu haben, damit es schnell wiederhergestellt werden kann und gesund bleibt, bis Sie bei Bedarf Ersatz kaufen.


1

Ich habe es auf Systemen ohne Ausfallzeiten gemacht. Wirklich, aber es ist genauso wahrscheinlich, dass Sie einen anderen verlieren Laufwerk , wenn das RAID neu erstellt wird ... Ich habe eines einmal ausgetauscht und es dann wieder ausgetauscht, als ein anderes Laufwerk während des Wiederherstellens Fehler auslöste.

Es ist wirklich eine philosophische Frage: Wenn Sie an proaktive Stresstests (sowohl des Arrays als auch Ihres Herz-Kreislauf-Systems) glauben, sollten Sie Ihre Laufwerke austauschen. Aber wirklich, Sie werden nie wissen, welches Laufwerk als nächstes schlecht wird. Es ist keineswegs unwahrscheinlich, dass Sie das neu ersetzte Laufwerk verlieren, bevor Sie eines der älteren, bewährten Laufwerke verlieren.

Abgesehen davon würde ich meine Zeit damit verschwenden, meine Backup-Lösung einem Stresstest zu unterziehen, und die Laufwerke in Ruhe lassen, bis sie tatsächlich Fehler auslösen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.