Ich habe einen Stapel Sun X2200-M2-Server. Diese Server verfügen über ECC-Speicher.
Auf einigen dieser Server werden im eLOM Warnungen zu "korrigierbaren ECC-Fehlern erkannt" angezeigt, z.
# ssh regress11 ipmitool sel elist
1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
... einige häufiger als andere.
Der Kernel auf diesem speziellen System löst ebenfalls EDAC-Fehler aus, obwohl ECC-Ereignisse weitaus häufiger als das eLOM aufgezeichnet werden:
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
Wenn der Server nun eine nicht korrigierbare ECC erkennt, wird das System zurückgesetzt. Dies ist eindeutig fehlerhaft, und das Entfernen / Ersetzen des identifizierten Sticks oder Paares behebt das Problem.
Aber ich denke, wenn der Fehler korrigierbar ist, gibt es kein unmittelbares Problem - ich kann dies als Warnung behandeln und bereit sein, den Stick / das Paar zu ziehen, wenn ein nicht korrigierbarer Fehler auftritt?