Mittlere Zeit zwischen Ausfällen - SSD


32

Die mittlere Zeit zwischen Ausfällen (MTBF) für diese SSD wird in 1,500,000Stunden angegeben.

Das sind viele Stunden. 1,500,000Stunden sind ungefähr 170Jahre. Woher wissen sie, was die MTBF ist, da die Erfindung dieser besonderen SSD nach dem Bürgerkrieg erfolgte?

Einige Optionen, die für mich sinnvoll sind:

  • Newegg hat nur einen Tippfehler
  • Die Definition der mittleren Zeit zwischen Ausfällen ist meines Erachtens nicht so
  • Sie verwenden eine statistische Extrapolation, um die MTBF zu schätzen

Frage:

Wie wird die mittlere Zeit zwischen Ausfällen (MTFB) für SSD / HDDs ermittelt?


Antworten:


34

Die Hersteller von Laufwerken geben die Zuverlässigkeit ihrer Produkte anhand zweier verwandter Messgrößen an: Die annualisierte Ausfallrate (AFR), die den Prozentsatz der Laufwerke in einer Population angibt, die in einem auf eine jährliche Schätzung skalierten Test ausfallen. und die mittlere Zeit bis zum Ausfall (MTTF).

Die AFR eines neuen Produkts wird in der Regel basierend auf beschleunigten Lebensdauer- und Stresstests oder basierend auf Felddaten früherer Produkte geschätzt. Die MTTF wird als die Anzahl der Betriebsstunden pro Jahr geteilt durch den AFR geschätzt. Eine verbreitete Annahme für Laufwerke in Servern ist, dass sie zu 100% eingeschaltet sind.

http://www.cs.cmu.edu/~bianca/fast/

Eine MTTF von 1,5 Millionen Stunden klingt einigermaßen plausibel.

Das wäre ungefähr ein Test, bei dem 1000 Laufwerke 6 Monate lang laufen und 3 Laufwerke ausfallen.
Die AFR wäre (2 * 6 Monate * 3) / (1000 Antriebe) = 0,6% jährlich und die MTTF = 1 Jahr / 0,6% = 1.460.967 Stunden oder 167 Jahre.

Anders ausgedrückt: Wenn Sie 167 Laufwerke haben und ein Jahr laufen lassen, gibt der Hersteller an, dass im Durchschnitt ein Laufwerk ausfällt.

Aber ich erwarte, dass dies einfach die konstante "zufällige" mechanische / elektronische Fehlerrate ist.

Unter der Annahme, dass die Ausfallraten der Badewannenkurve entsprechen , wie in den Kommentaren erwähnt, kann das Marketingteam des Herstellers die Zuverlässigkeitszahlen ein wenig massieren, indem es beispielsweise DOAs (Dead On Arrival, Geräte, die die Qualitätskontrolle bestanden haben, aber beim Endbenutzer versagen) nicht berücksichtigt installiert sie) und erweitert die DOA-Definition, um auch diejenigen in der frühen Ausfallspitze auszuschließen. Und weil das Testen nicht lange genug dauert, werden Sie auch keine Alterungseffekte feststellen.

Ich denke, die Garantiezeit ist ein besserer Indikator dafür, wie lange ein Hersteller wirklich mit einer SSD rechnet!
Das lässt sich in Jahrzehnten oder Jahrhunderten definitiv nicht messen ...


Mit der MTBF ist die Zuverlässigkeit verbunden, die mit der begrenzten Anzahl von Schreibzyklen verbunden ist, die NAND-Zellen unterstützen können. Eine übliche Metrik ist die Gesamtschreibkapazität, normalerweise in TB. Neben anderen Leistungsanforderungen ist das ein großer Limiter.

Um einen bequemeren Vergleich zwischen Laufwerken verschiedener Hersteller und unterschiedlicher Größe zu ermöglichen, wird die Schreibdauer häufig auf die tägliche Schreibkapazität als Bruchteil der Festplattenkapazität umgerechnet.

Angenommen, ein Laufwerk hat eine Lebensdauer, solange es unter Garantie steht:
Eine 100-GB-SSD hat möglicherweise eine Garantie von 3 Jahren und eine Schreibkapazität von 50 TB:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

Je höher diese Zahl, desto besser eignet sich die Festplatte für schreibintensive E / A-Vorgänge.
Gegenwärtig (Ende 2014) haben die SSDs der Value Server-Reihe einen Wert von 0,3 bis 0,8 Laufwerken / Tag, die mittlere Reichweite steigt stetig von 1 bis 5 und das High-End scheint mit einer Schreibfestigkeit von bis zu 25 in die Höhe zu schießen * Die Kapazität pro Tag für 3-5 Jahre.

Einige Tests in der Praxis haben gezeigt, dass die Herstellerangaben manchmal massiv überschritten werden können. Das Fahren von Geräten weit über die Herstellergrenzen hinaus ist jedoch nicht immer eine Überlegung für Unternehmen. Kaufen Sie stattdessen ordnungsgemäß spezifizierte Laufwerke für Ihre Zwecke.


1
Beachten Sie, dass die Konvertierung von AFR zu MTTF ein konstantes AFR voraussetzt. Dies gilt nachdrücklich nicht für Dinge mit beweglichen Teilen (z. B. Festplatten) und möglicherweise nicht für SSDs.
Mark

Definitiv wahr. Im IIRC kommt es zu einem frühen Ausfall, dann zu einer Phase mit geringem Ausfall und dann zu einem stetigen Anstieg des AFR mit zunehmendem Alter. Fügen Sie sich ändernde Umgebungsfaktoren hinzu und die reale Weltzahl wird viel höher. Wie bei @Chris S bereits erwähnt, ist der Garantiezeitraum möglicherweise eine bessere Messgröße mit nützlichen Auswirkungen auf die Praxis.
HBruijn

Gute ernüchternde Ansicht, dass eine MTBF von 1'500'000 Stunden wirklich bedeutet: "Wenn ich 1000 ssd wie diese habe, werden 3 wahrscheinlich innerhalb von 6 Monaten ausfallen (manche sogar früher) ...". +1 (und da die Tests über einen kurzen Zeitraum durchgeführt werden, sollte die Lebensdauer derer die Garantie nicht zu sehr überschreiten ... die "MTBF" sinkt wahrscheinlich stark, wenn Ihr Laufwerk N Jahre alt ist)
Olivier Dulac

1
@ HBruijn Vielen Dank für Ihre informative Antwort. Das Phänomen, auf das Sie sich beziehen (frühe Ausfallspitze, Zeitspanne geringer Ausfälle, dann stetige Zunahme der Ausfälle), wird durch die Badewannenkurve beschrieben .
OSE

19

Leider ist das MTBF nicht das, was die meisten Leute denken ...

  • Es ist nicht so lange eine einzelne Fahrt dauern wird.

    Die Hersteller erwarten, dass ihre Laufwerke so lange halten wie die Garantie, danach ist es wirklich nicht mehr ihr Problem. Ältere Festplatten mit elektromagnetischem Plattenteller werden nach etwa 10 Jahren ausgelastet sein. Integrierte Schaltkreise halten extrem lange, aber andere Komponenten (insbesondere Kondensatoren) nutzen sich nach einer vorhersehbaren Anzahl von Zyklen ab.

  • Es ist, wie viele dieser Laufwerke Sie benötigen, um zu erwarten, dass 1 Laufwerk pro Stunde ausfällt.

    Wie bereits erwähnt, führen die Hersteller verschiedene Tests über einen angemessenen Zeitraum durch und ermitteln eine Fehlerrate. Bei diesen Tests gibt es eine gewisse Varianz, und das Marketing hat häufig einen Einfluss darauf, wie hoch die endgültige Zahl sein sollte. Unabhängig davon raten sie nach besten Kräften, wie viele Laufwerke im Durchschnitt für einen Ausfall pro Stunde benötigt werden.

    In Situationen mit weniger Antrieben können Sie eine statistische Ausfallwahrscheinlichkeit basierend auf der MTBF ableiten. Beachten Sie jedoch, dass Ausfälle bei gut konzipierten Produkten einer "Badewannenkurve" folgen sollten - dh höhere Ausfallraten, wenn Geräte zum ersten Mal in Betrieb genommen werden Die Gewährleistungsfrist ist abgelaufen, wobei die Ausfallraten dazwischen liegen.


2

Sie stammen aus einer statistischen Auswertung, die auf einer kleinen Stichprobengröße und einem kurzen Zeitraum basiert. Es gibt wirklich keine allgemein anerkannte Methode oder einen allgemein anerkannten Prozess, es ist also wirklich nur dummes "Marketing".

Dieser Artikel kann es ein bisschen mehr erklären. Und Wikipedia hat einige Formeln, nach denen Sie vielleicht suchen?

Grundsätzlich werden für fast alles (einschließlich Haushaltsmaschinen wie Geschirrspülmaschinen) mehrere Produkte über einen längeren Zeitraum betrieben. Wie viele Ausfälle in diesem Zeitraum auftreten, wird zur Berechnung des MTFB herangezogen.

Es ist natürlich nicht machbar, Produkte über einen gesamten Lebenszyklus zu betreiben, dh SSDs, die eine lange Lebensdauer haben. Sie werden hauptsächlich durch die Anzahl der Schreibvorgänge und nicht durch mechanische Fehler begrenzt (wofür MTFB gedacht ist).


2

Schlechte Nachrichten über MTBF sind, dass gemeinsame Auswertungsverfahren eine gleichmäßig verteilte Schreiblast unter allen NAND-Zellen voraussetzen. Zellen werden jedoch zu Clustern zusammengefasst, und wenn eine einzelne Zelle ausfällt, wird der gesamte Cluster als tot markiert und durch eine neue aus der Reserve ersetzt. Normalerweise beträgt die Reserve etwa 20% des SSD-Volumens. Wenn die Reserve erschöpft ist, wird die gesamte SSD als tot markiert.

IRL-SSD enthält persistente und flüchtige Daten. Stellen Sie sich vor, Sie haben 90% der SSD mit statischen Daten gefüllt, und der Rest von 10% befindet sich unter der hohen Schreiblast. Der SSD-Controller verteilt die Last auf die verfügbaren freien Cluster. Das 10% erschöpft ihre Lebensdauer 10-mal schneller als Sie geschätzt haben. Sie werden immer wieder bis zum Ende aus der Reserve ersetzt.

In dem wirklich schlimmen Fall, in dem die Datenmenge 30: 1 oder mehr beträgt - ein Stapel Fotos und eine relativ kleine Datenbank für beliebte Websites -, stirbt Ihre SSD in einem Jahr.

Einer meiner Kunden war sehr beeindruckt von den SSD-Eigenschaften und bestand darauf, seinen DBMS-Server mit zwei davon auszustatten. In den nächsten 12 Monaten haben wir beide zweimal ausgetauscht.

Die Lebensdauer von SSD beträgt dementsprechend 170 Jahre. Sicher.


1

MTBF ist für die Messung der Lebensdauer von SSD-Laufwerken nicht relevant, da SSD nicht für die eigentliche Zeit wie ein gewöhnliches rotierendes Festplattenlaufwerk, sondern für die Anzahl der Überschreibvorgänge für SSD-Zellen empfindlich ist. Eine relevantere Kennzahl für SSD ist Drive Writes Per Day (DWPD) . Einige SSD-Festplatten der Enterprise-Klasse mit einer Lebensdauer von 3,2 TB haben beispielsweise eine Lebensdauer von 3 DWPD für 5 Jahre.

Manchmal bieten SSD-Anbieter eine Ausdauer in Form von (Total) Terabyte Written (TBW) oder "Write Cycles" (Schreibzyklen), die leicht in DWPD übersetzt werden können, und umgekehrt, wobei die Zeit und der maximale Durchsatz für das jeweilige SSD-Laufwerk bekannt sind.

Für das angegebene Beispiel mit einem 3,2-TB-SSD-Laufwerk gilt:
TBW = DriveSize * Years * DWPD;
TBW = 3,2 TB * 5 * 365 * 3d = 17520 TB für 5 Jahre

Wenn das Laufwerk einen dauerhaften Schreibdurchsatz von 80 MByte pro Sekunde bietet, ist
WriteCycles = DWPD * Years;
WriteCycles = 3 * 365 * 5 = 5475 Gesamtschreibzyklen für die angegebene Platte

Was zu beachten ist, ist, dass wir den schlimmsten Fall berechnen, wenn Sie einen Auslastungsdurchsatz von 100% für das Laufwerk bereitstellen (was höchstwahrscheinlich nicht möglich ist).

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.