Wo finden Sie Ihre MTBF-Daten?


9

Die mittlere Zeit zwischen Fehlern kann schwierig zu interpretieren sein, aber es gibt eine Fülle statistischer Methoden, die Sie verwenden können, wenn Sie über harte Daten verfügen.

Das Problem ist, dass niemand mehr seine MTBF-Nummern meldet. (Jedenfalls außer Festplattenherstellern.)

Wo Sie gehen zu MTBF Daten für Komponenten und Server zu finden?


Ich bin gespannt, wie Sie MTBF-Daten verwenden.
dr.pooter

Antworten:


2

Warum MTBF keine Rolle spielt

Die mittlere Zeit zwischen den Fehlernummern ist nicht so wichtig wie die nicht korrigierbare Fehlerrate. MTBF befasst sich mit dem vollständigen Ausfall des Teils, lesen Sie das Laufwerk. Diese Zahl ist jedoch bedeutungslos, wenn ein einzelnes fehlerhaftes Bit eine RAID 5-Panik auslöst und das Ersatzlaufwerk ins Spiel bringt.

Während die MTBF für Laufwerke auf Profi- und Verbraucherebene in den letzten Jahren um eine Größenordnung gestiegen ist, ist die nicht korrigierbare Fehlerrate relativ konstant geblieben. Diese Rate wird auf 10 ^ 14 Bit geschätzt, also ein Bit pro 12 gelesenen Terabyte für Consumer-SATA-Laufwerke, Quelle .

Warum sollten Sie den Schlaf über Ihr RAID 5-Array verlieren?

Das sind also nur 6 Durchgänge eines brandneuen 2-TB-Laufwerks. Wie lange dauert das Lesen von 12 TB Daten? Viel weniger Zeit als das MTBF für diese Fahrt.

http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/

Was mehr betrifft, ist die Wahrscheinlichkeit eines doppelten Lesefehlers auf einem RAID 5-Array, das aus so großen Laufwerken besteht. Bei einem RAID 5-Array mit 7 1-TB-Laufwerken beträgt die Wahrscheinlichkeit eines zweiten Lesefehlers bei einer RAID-Neuerstellung 50%.

http://blogs.zdnet.com/storage/?p=162


Sie könnten vielleicht immer RAID6 verwenden?
Chopper3

3
Tolle Antwort, deckt aber nur Festplatten ab
Mark Henderson

@ Chopper3, ja, RAID6 verbessert die Situation, aber wenn Sie zwei Festplatten für die Parität und eine dritte für das Ersatzlaufwerk reserviert haben, kommen Sie auf einem Array mit 7 Laufwerken dem gleichen Speicherplatz wie einem RAID10-Array ziemlich nahe.
Dave Cheney

Ich suche Daten für mehr als nur Festplatten. Ganze Server fallen immer noch von Zeit zu Zeit aus, daher lohnt es sich zu messen, wie oft.

1

Es ist eine Schande, dass die Leute denken, dass die MTBF-Zahlen nicht für komplexe Systeme gelten. Das eigentliche Problem (afaik) ist, dass die Hersteller nicht über die MTBF-Werte für ihre Hardwaremodule verfügen. Dies sind Zahlen, die unbedingt verfügbar sein sollten. Dell sagt: "Dell listet keine bestimmten MTBFs mehr für ihre Server auf." ist eigentlich grausam! Sie können genauso gut sagen: "Nun, unser Zeug ist wirklich nicht zuverlässig genug, um dort eingesetzt zu werden, wo eine MTBF-Figur benötigt wird."

Der Zuverlässigkeitsingenieur (oder der Typ, der den Hut des RE trägt) soll den Umfang der Verfügbarkeitsstudie einschränken. Dies ist häufig auf die Hardwaremodule beschränkt.

Was die Klassifizierung eines Fehlers betrifft ... Deshalb führen wir eine FMECA-Analyse durch.

Sicher, Systeme sind komplex und Fehlermodi umfassen Softwarefehler, aber das ist oft nicht der Umfang der Studie. Wir wollen MTBF-Zahlen für Hardware. Bitten Sie Ihren Verkäufer, dies anzugeben. Es liegt in ihrer technischen Verantwortung, sie Ihnen zur Verfügung zu stellen.


Das Problem, wenn ein Anbieter die MTBF veröffentlichen muss, besteht darin, dass er sie früher veröffentlichen muss, als er echte Daten erfassen kann. Daher müssen sie die MTBF durch eine Art Extrapolation erzeugen. Manchmal kann das weit weg sein. Der schlimmste Fall, den ich gesehen habe, war um mehr als drei Größenordnungen verschoben.
Kasperd

0

Ich habe gesehen, wie MTBF auf Support-Websites des Unternehmens berichtet hat. Sprechen Sie mit Ihrem Verkäufer oder Ihrer SE, um die Informationen zu erhalten.


0

Aus meiner Sicht sind MTBF-Nummern zu einem Verkaufstool geworden. Moderne Hardware hat einen Zustand erreicht, in dem MTBF-Nummern im Wesentlichen unbrauchbar sind. Selbst der niedrigste Low-Ball-Anbieter produziert Hardware, die jeden vernünftigen Upgrade-Zyklus überdauert. Wie Sie bemerken, meldet niemand MTBF-Nummern. Ich glaube das ist der Grund.


Dennoch sind einige Server zuverlässiger als andere. Wir müssen Fragen beantworten wie "Lohnt sich ein zweites Netzteil?" Dafür brauchen wir Daten. Im Idealfall handelt es sich dabei um echte Fehlerstatistiken, die für eine Population ähnlicher Geräte gemeldet werden. Wir verwenden MTBF als schwachen Proxy für diese tatsächliche Verteilung.

Meinetwegen. In meiner kleinen Welt ist die Idee der Redundanz ein erwarteter Teil des Prozesses. Schauen Sie sich als weiteres Beispiel die meisten großen Hosting-Anbieter oder Google an. Ich schlage immer noch vor, dass dies angesichts des Warenstatus von Wintservern ein abnehmendes Problem ist. Wenn Sie über Z-Serien oder ähnliches sprechen, sind die Gleichungen und Erwartungen sehr unterschiedlich.
Dr.Pooter

0

Leider ist MTBF in modernen Servern keine praktische oder zuverlässige Messung. Das Konzept von MTBF besteht darin, dass wir, wenn ein bestimmtes Modell / eine bestimmte Konfiguration über einen längeren Zeitraum von vielen verwendet wird, wahrscheinlich dessen Zuverlässigkeit kennen.

Heutzutage tauschen die meisten von uns gerne potenzielle zusätzliche Zuverlässigkeit gegen nachgewiesene zusätzliche Leistung und Energieeffizienz. Würden Sie Ihre neuen Server beispielsweise auf 18 bis 24 Monate alter Hardware bauen, nur weil sie ihre Zuverlässigkeit bewiesen hat? oder einfach mit der letzten Generation von CPUs mit mehr Kernen, Leistung und Energieeffizienz?

Im Gegensatz zu Telefoniesystemen der alten Schule sind die Systeme sehr individuell und natürlich stark von Software abhängig. Wie zuverlässig ist die BIOS-Version x.xx oder die Treiberversion y.yyy? Erhöhen die neuesten Patches für OS / DB / App-Server die Stabilität oder gibt es Stabilitätsregressionen? Wie viele Server auf der Welt verwenden tatsächlich genau die gleiche Mischung aus Hardware- / Stack-Version wie Sie?

Wenn Sie eine hohe Verfügbarkeit benötigen, müssen Sie Ihrem System ohnehin Redundanz hinzufügen (Dual-Everything, Clustering, Hot Spares, DRP, was haben Sie). Daher ist die relative Zuverlässigkeit jeder Hardwarekomponente in der Regel kein wesentlicher Faktor, da Sie Ihre Infrastruktur aufbauen, um Ausfälle einzelner Komponenten zu überstehen. Lebe einfach mit der Unsicherheit (Zuverlässigkeit ist rückwirkend) und plane entsprechend.


Das Problem sich ständig ändernder Konfigurationen ist real. Das macht es schwierig, mit einem einzigen Konfigurationspunkt einen Erfahrungsschatz aufzubauen. Wenn Sie jedoch HA planen, müssen Sie auch bei einer redundanten Konfiguration eine Vorstellung von der Zuverlässigkeit der einzelnen Geräte haben.

Es scheint keine Hoffnung zu geben, dass die IT jemals eine Wissenschaft wird. Wir arbeiten weiter an Annahmen, keinen harten Daten und Ressourcenverschwendung. Heutzutage eher wie schwarze Magie als alles andere. Engineering scheint ein entferntes Ziel zu sein.
Giovanni Tirloni

0

Ich stimme den meisten anderen Antworten zu: MTBF-Nummern sind für mich nicht nützlich und ich überprüfe sie nie.

Die einzige Ausnahme sind Festplatten, aber selbst dort sehe ich MTBF nur sehr grob an und bin mir sicher, dass ich die zuverlässigeren Laufwerke der "Serverklasse" kaufe, wenn ich die Wahl habe.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.