Wie interpretiere ich MCE-Nachrichten?

Ich habe eine Reihe von Fehlern festgestellt, die erst kürzlich /var/log/messagesauf einem unserer Server aufgetreten sind (siehe unten). Der mce-Client scheint sich der Fehlerquelle jedoch weniger sicher zu sein als die dekodierten Einträge in syslog. Gibt es einen Schlüssel zur Interpretation der MCE-Ausgabe?

Nov 12 04:19:19 areion kernel: [14698753.176035] Machine check events logged
Nov 12 04:19:19 areion mcelog: HARDWARE ERROR. This is *NOT* a software problem!
Nov 12 04:19:19 areion mcelog: Please contact your hardware vendor
Nov 12 04:19:19 areion mcelog: MCE 0
Nov 12 04:19:19 areion mcelog: CPU 0 BANK 8
Nov 12 04:19:19 areion mcelog: MISC 640738dd0009159c ADDR 96236c6c0
Nov 12 04:19:19 areion mcelog: TIME 1352711959 Mon Nov 12 04:19:19 2012
Nov 12 04:19:19 areion mcelog: MCG status:
Nov 12 04:19:19 areion mcelog: MCi status:
Nov 12 04:19:19 areion mcelog: MCi_MISC register valid
Nov 12 04:19:19 areion mcelog: MCi_ADDR register valid
Nov 12 04:19:19 areion mcelog: MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Nov 12 04:19:19 areion mcelog: Transaction: Memory read error
Nov 12 04:19:19 areion mcelog: STATUS 8c0000400001009f MCGSTATUS 0
Nov 12 04:19:19 areion mcelog: MCGCAP 1c09 APICID 20 SOCKETID 1
Nov 12 04:19:19 areion mcelog: CPUID Vendor Intel Family 6 Model 44

Alle Fehler scheinen mit derselben Speicherbank verbunden zu sein:

areion:~# awk -F'mcelog:' '/mcelog:.*BANK/{ print $2; }' < /var/log/messages |uniq
 CPU 0 BANK 8

Ich habe den mcelog-Daemon ausgeführt, und wenn ich nach Fehlerinformationen suche, scheint er nicht zu wissen, woher die Fehler stammen. Nur dass sie zugeordnet sind CPU0(wir haben nur eine CPU in diesem Feld):

Memory errors
SOCKET 1 CHANNEL any DIMM any
corrected memory errors:
        77 total
        77 in 24h
uncorrected memory errors:
        0 total
        0 in 24h
Per page corrected memory statistics:
359ffc000: total 2 2 in 24h online

3b93cc000: total 2 2 in 24h online

3ce45c000: total 2 2 in 24h online

96236c000: total 20 20 in 24h online triggered

96545c000: total 9 9 in 24h online

96a82c000: total 9 9 in 24h online

96a8ec000: total 1 1 in 24h online

96fb6c000: total 15 15 in 24h online triggered

9c2edc000: total 15 15 in 24h online triggered

9c5eac000: total 1 1 in 24h online

9c6a1c000: total 1 1 in 24h online

Es ist überhaupt nicht klar, wie ich diese Informationen interpretieren soll. Einerseits zeigt der mce-Client weder Kanal noch DIMM an, aber die dekodierte Nachricht zeigt dmesgan, dass auf DIMM 8 Fehler aufgetreten sind. Dies scheint darauf hinzudeuten, dass nur 42 Nachrichten protokolliert wurden:

[14698753.176035] Machine check events logged
[14698753.629174] Machine check events logged
[14698815.338595] __ratelimit: 38 callbacks suppressed
[14698815.338628] Machine check events logged
[14698816.020797] Machine check events logged

Ich bekomme scheinbar gemischte Botschaften, weshalb ich mich frage, welche Annahmen ich aufgrund der aus den verschiedenen Quellen gemeldeten Informationen treffen soll.

Sonstiges:

areion:~# grep 'model name' /proc/cpuinfo |uniq
model name      : Intel(R) Xeon(R) CPU           X5670  @ 2.93GHz

areion:~# apt-cache policy mcelog |grep Installed
  Installed: 1.0~pre3-3

areion:~# lsb_release -a
No LSB modules are available.
Distributor ID: Debian
Description:    Debian GNU/Linux 6.0.6 (squeeze)
Release:        6.0.6
Codename:       squeeze

debian linux

— vezult
quelle

Möglicherweise möchten Sie versuchen, das betreffende DIMM (CPU 0, SOCKET 8) zu ersetzen und festzustellen, ob die MCE-Nachrichten weiterhin generiert werden.

Das mcelog-Paket enthält einige Standardschwellenwerte für verschiedene MCE-Ereignisse, die im Laufe der Zeit auftreten. Überprüfen Sie /etc/mcelog/mcelog.conffür Details. Für Speicherseitenfehler beträgt der Schwellenwert 10 Ereignisse über 24 Stunden. (Ich bin mir nicht sicher, woher diese Nummer kommt, aber es ist wahrscheinlich ein vernünftiger Bezugspunkt). In Ihrem Beitrag werden 77 korrigierbare Ereignisse innerhalb von 24 Stunden für eine ganze Reihe von Seiten erwähnt. Daher ist es ziemlich wahrscheinlich, dass das DIMM ein Problem entwickelt hat, das möglicherweise zu etwas Schwerwiegenderem wird oder nicht.

Ich wäre nicht zu verärgert darüber, inkonsistente Informationen aus verschiedenen Quellen zu erhalten. Im Allgemeinen habe ich festgestellt, dass alles auf Firmware-Ebene ziemlich plattformspezifisch ist (dh speziell für dieses bestimmte Hardwaremodell). Meine Faustregel für Firmware-Probleme lautet, dass die Tools des Anbieters normalerweise am genauesten, aber am wenigsten verwendbar sind. Die allgemeineren Open Source-Tools sind einfacher zu handhaben, bieten jedoch möglicherweise nicht genügend Informationen, um genau zu zeigen, was gerade passiert.

— Tim Potter
quelle