Dies hängt von Ihrer Serverhardware ab. Eine Whitebox oder ein Supermicro-System handhaben dies anders als ein Dell, HP oder IBM ...
Eine der Mehrwertfunktionen von High-End-Servern besteht darin, dass eine gewisse Hardware- / Betriebssystemintegration vorhanden ist. Schönere Server melden als Teil der Verwaltungsagenten und / oder der Out-of-Band-Verwaltungslösung (ILO, DRAC, IPMI), wonach Sie suchen.
Sie sollten die Tools auf Ihrer Hardwareplattform verwenden.
Auszug aus einem HP ProLiant Server unter Linux und den HP Management Agents:
Trap-ID=6056
ECC Memory Correctable Errors detected.
und
Trap-ID=6052
Advanced ECC Memory Engaged
oder eine strengere
Trap-ID=6029
A correctable memory log entry indicates a memory module needs to be
replaced.
oder das Schlimmste ... Ignoriere einen Fehler für 6 Tage, bis der Server wegen schlechten RAM abstürzt
0004 Repaired 22:21 12/01/2008 22:21 12/01/2008 0001
LOG: Corrected Memory Error threshold exceeded (Slot 1, Memory Module 1)
0007 Repaired 02:58 12/07/2008 02:58 12/07/2008 0001
LOG: POST Error: 201-Memory Error Single-bit error occured during
memory initialization,
Board 1, DIMM 1. Bank containing DIMM(s) has been disabled.
0008 Repaired 19:31 12/08/2009 19:31 12/08/2009 0001
LOG: ASR Detected by System ROM
Diese wurden protokolliert sowie SNMP-Traps und E-Mails gesendet.
Generell werden im Kernel-Ringpuffer Machine Check Exceptions angezeigt , sodass Sie mcelog überprüfen dmesg
oder ausführen können . In meinen Erfahrungen mit Supermicro-Geräten ohne IPMI hat das nicht alles erfasst, und ich hatte immer noch RAM-Fehler, die durch die Risse rutschten und Ausfälle verursachten. Leider führte dies zu archaischen RAM-Einbrennrichtlinien vor der Systembereitstellung.