Wie ernst sollte ich ECC-korrigierbare Fehlerwarnungen nehmen?

Ich habe einen Stapel Sun X2200-M2-Server. Diese Server verfügen über ECC-Speicher.

Auf einigen dieser Server werden im eLOM Warnungen zu "korrigierbaren ECC-Fehlern erkannt" angezeigt, z.

# ssh regress11 ipmitool sel elist
   1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
   2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted

... einige häufiger als andere.

Der Kernel auf diesem speziellen System löst ebenfalls EDAC-Fehler aus, obwohl ECC-Ereignisse weitaus häufiger als das eLOM aufgezeichnet werden:

EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error

Wenn der Server nun eine nicht korrigierbare ECC erkennt, wird das System zurückgesetzt. Dies ist eindeutig fehlerhaft, und das Entfernen / Ersetzen des identifizierten Sticks oder Paares behebt das Problem.

Aber ich denke, wenn der Fehler korrigierbar ist, gibt es kein unmittelbares Problem - ich kann dies als Warnung behandeln und bereit sein, den Stick / das Paar zu ziehen, wenn ein nicht korrigierbarer Fehler auftritt?

ecc

— David Mackintosh
quelle

Hängt davon ab, wie oft Sie den Fehler erhalten. Aus verschiedenen Gründen sollte ECC durchschnittlich einmal im Jahr Einzelbitfehler korrigieren müssen. Wenn Sie sie deutlich schneller erhalten oder wenn es sich um Multi-Bit-Fehler handelt, sollten Sie sich Sorgen machen (ich würde den RAM so schnell wie möglich ersetzen).

Auch ECC ist nicht perfekt. Es ist möglich, dass der kumulative Fehler ECC besteht. das würde sich als Betriebssystemabsturz oder ähnliches Problem zeigen.

— Chris S.
quelle

Vielen Dank. Verhandeln mit dem Kunden, um Ersatz zu finanzieren.

— David Mackintosh