Zeigt Kernel: EDAC MC0: UE Seite 0x0 auf fehlerhaften Speicher, einen Treiber oder etwas anderes?

kernel: EDAC MC0: UE page 0x0, offset 0x0, grain 0, row 7, labels ":": i3200 UE

Heute hat unser CentOS Release 6.4 (Final) -System plötzlich EDAC-Fehler ausgelöst. Ich habe neu gestartet und die Fehler wurden gestoppt.

Ich habe nach Antworten gesucht, aber sie fallen in zwei Lager, Speicher oder einen Chipsatz. Ich hätte gerne einen Rat, wo ich weiter suchen soll, um dies auf Chipsatz oder Speicher einzugrenzen.

linux memory ram

— Octopusgrabbus
quelle

Wenn es keine Produktionsmaschine ist, würde ein Memtest helfen.

— schaiba

Was Sie erleben, ist ein Fehlererkennungs- und Korrekturereignis . Angesichts des Fehlers enthält dieses Bit: MC0Es tritt ein Speicherfehler auf. Diese Nachricht zeigt Ihnen, wo genau der Fehler auftritt. MC0bedeutet den RAM im ersten Socket (# 0). Der Rest dieser Nachricht teilt Ihnen speziell in diesem RAM-DIMM mit, dass der Fehler aufgetreten ist.

Wenn Sie nur eine bekommen, würde ich sie weiterhin überwachen, aber vorerst nichts unternehmen. Wenn dies fortgesetzt wird, tritt höchstwahrscheinlich ein fehlerhaftes Speichermodul auf.

Sie können auch versuchen, es mit memtest86 + gründlicher zu testen .

Diese vorherige Frage hatte den Titel: Wie kann ein korrekter fehlerhafter RAM-Sektor gemäß MemTest86 + Fehler-Imdocation auf die schwarze Liste gesetzt werden? zeigt Ihnen, wie Sie den Speicher auf die schwarze Liste setzen können, wenn Sie auch daran interessiert sind.

— slm
quelle

Beachten Sie der Vollständigkeit halber, dass es in diesem Bereich Wechselwirkungen zwischen BIOS-Fehlern und dem Kernel gibt, die zu falschen Ergebnissen bei i32xx-Chipsätzen führen können: bugzilla.redhat.com/show_bug.cgi?id=564274

— Adrian Cox