Ich habe eine Diskussion über die Verwendung von ECC-RAM auf Servern gesehen. Warum ist es besser?
Ich habe eine Diskussion über die Verwendung von ECC-RAM auf Servern gesehen. Warum ist es besser?
Antworten:
Der ECC-RAM kann durch Verwendung von Paritätsbits kleine Fehler in Bits beheben. Da Server eine gemeinsam genutzte Ressource sind, bei der Verfügbarkeit und Zuverlässigkeit wichtig sind, wird ECC-RAM im Allgemeinen nur mit einem geringen Preisunterschied verwendet. ECC-RAM wird auch in CAD / CAM-Arbeitsstationen verwendet, da kleine Bitfehler zu Rechenfehlern führen können, die zu größeren Problemen führen, wenn ein Entwurf in die Fertigung geht.
Ausgezeichnete Praxisstudie:
DRAM-Fehler in freier Wildbahn: Eine groß angelegte Feldstudie (pdf)
Dieser Artikel bietet die erste groß angelegte Studie zu DRAM-Speicherfehlern auf diesem Gebiet. Es basiert auf Daten, die über einen Zeitraum von mehr als zwei Jahren aus der Serverflotte von Google gesammelt wurden und viele Millionen DIMM-Tage ausmachen. Der DRAM in unserer Studie deckt mehrere Anbieter, DRAM-Dichten und -Technologien ab (DDR1, DDR2 und FBDIMM).
Das Papier befasst sich mit den folgenden Fragen: Wie häufig sind Speicherfehler in der Praxis? Was sind ihre statistischen Eigenschaften? Wie werden sie von externen Faktoren wie Temperatur und Systemauslastung beeinflusst? Und wie variieren sie mit chipspezifischen Faktoren wie Chipdichte, Speichertechnologie und DIMM-Alter?
Wir stellen fest, dass sich DRAM-Fehler im Feld in vielen Aspekten sehr unterschiedlich verhalten als allgemein angenommen. Beispielsweise beobachten wir DRAM-Fehlerraten, die um Größenordnungen höher sind als zuvor berichtet, mit FIT-Raten (Ausfälle in der Zeit pro Milliarde Gerätestunden) von 25.000 bis 70.000 pro Mbit und mehr als 8% der betroffenen DIMMs pro Jahr. Wir liefern starke Beweise dafür, dass Speicherfehler eher von harten als von weichen Fehlern dominiert werden, auf die sich die meisten früheren Arbeiten konzentrieren. Wir stellen fest, dass die Temperatur von allen Faktoren, die das Fehlerverhalten eines DIMM im Feld beeinflussen, einen überraschend geringen Effekt hat. Anders als allgemein befürchtet, gibt es schließlich keinen Hinweis darauf, dass die Pro-DIMM-Fehlerrate mit neueren DIMM-Generationen zunimmt.
Interessanterweise waren die meisten Speicherfehler Hard - Hard - Speicherfehler sind nicht behebbar, was bedeutet, dass der Speicher physisch als fehlerhaft ersetzt werden muss , wohingegen Soft - Speicherfehler behoben werden können, indem der Speicher mit dem korrekten Wert überschrieben wird. Dies zeigt mir, dass der Wert von ECC ziemlich begrenzt ist.
Es gibt zwei Arten von Fehlern, die typischerweise in einem Speichersystem auftreten können. Der erste wird als wiederholbarer oder schwerer Fehler bezeichnet. In dieser Situation ist ein Teil der Hardware defekt und gibt durchweg falsche Ergebnisse zurück. Ein Bit kann stecken bleiben, sodass es beispielsweise immer "0" zurückgibt, unabhängig davon, was darauf geschrieben ist. Harte Fehler weisen normalerweise auf lose Speichermodule, defekte Chips, Motherboard-Defekte oder andere physikalische Probleme hin. Sie sind relativ einfach zu diagnostizieren und zu korrigieren, da sie konsistent und wiederholbar sind.
Klingt so, als hätten alle Server in der Studie ECC verwendet, sodass wir die ECC-Fehlerrate nicht im Vergleich zu Nicht-ECC-Fehlerraten kennen.
In diesem Artikel wurden die Häufigkeit und Eigenschaften von DRAM-Fehlern in einer großen Flotte von Standardservern untersucht. Unsere Studie basiert auf Daten, die über einen Zeitraum von mehr als zwei Jahren gesammelt wurden, und deckt DIMMs verschiedener Hersteller, Generationen, Technologien und Kapazitäten ab. Alle DIMMs waren mit einer Fehlerkorrekturlogik (ECC) ausgestattet, um mindestens Einzelbitfehler zu korrigieren.
ECC hat mehrere Vorteile gegenüber der Parität. Zum einen kann es Einzelbitfehler erkennen und beheben, ohne das gesamte System anhalten zu müssen. Bei Mehrbitfehlern wird immer noch ein Paritätsfehler zurückgegeben, aber die Wahrscheinlichkeit, dass dies auftritt, ist während der Lebensdauer eines PCs astronomisch gering, es sei denn, der Speicher selbst ist defekt. ECC ist wie eine Autoversicherung: Sie deckt die meisten Probleme ab, kann aber nicht verhindern, dass sich mehrere Autos zusammenballen.
Weitere Informationen finden Sie hier: ECC-Speicher: Ein Muss für Server, nicht für Desktop-PCs
Um die Sache zu vereinfachen, zitieren Sie aus Wikipedia :
Elektrische oder magnetische Störungen in einem Computersystem können dazu führen, dass ein einzelnes DRAM-Bit spontan in den entgegengesetzten Zustand wechselt. Ursprünglich wurde angenommen, dass dies hauptsächlich auf Alpha-Partikel zurückzuführen ist, die von Verunreinigungen in Chip-Verpackungsmaterialien emittiert werden. Untersuchungen [5] haben jedoch gezeigt, dass die Mehrzahl der einmaligen ("weichen") Fehler in DRAM-Chips auf Hintergrundstrahlung zurückzuführen ist
...
Dieses Problem kann durch die Verwendung von DRAM-Modulen mit zusätzlichen Speicherbits und Speichercontrollern, die diese Bits ausnutzen, verringert werden. Diese zusätzlichen Bits werden verwendet, um die Parität aufzuzeichnen oder einen fehlerkorrigierenden Code zu verwenden