"Northbridge-Fehler (Knoten 0): ECC-Fehler im Probe Filter-Verzeichnis"

Ich habe eine E-Mail von einem Benutzer erhalten, der besorgt ist, dass die folgenden Fehler auf einem seiner Server auf ein ernstes Problem hinweisen. Das Problem ist, dass die folgenden Fehler alles sind , was ich tun muss. Normalerweise betrachte ich mich als anständigen Googler, aber in diesem Fall kann ich nur einen anderen Vorfall finden, bei dem die Benutzer auf diesen Fehler bezüglich "Probe Filter Directory" gestoßen sind:

[1044 snapshots @ abc]$
Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: CPU:0 
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]:       MC4_ADDR: 0x0000000000010f40

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the 
Probe Filter directory.

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN

Soweit ich das beurteilen kann, ist dies nur einmal passiert. Wenn Sie in den Protokollen nach anderen Hardwarefehlern suchen, wird nichts anderes als dieser eine Vorfall angezeigt.

Der Forumsbeitrag, auf den ich oben verweise, endet einfach damit, dass der Benutzer sich keine Sorgen machen soll, wenn er nur einmal vorkommt und keine schwerwiegenden Probleme verursacht. Dies ist der gleiche Rat, den ich von meinen Kollegen erhalten habe, die auch erwähnt haben, dass es zu viele Variablen gibt (dh was lief am 8. September um 2:50 Uhr morgens?).

Dieser Benutzer möchte jedoch sicher sein, dass etwas mit seinem System nicht stimmt. Was können die oben genannten Fehler anzeigen oder damit zusammenhängen? Was ist das "Probe Filter-Verzeichnis"? Welche Tests kann ich ausführen, um den Benutzer zu beruhigen, dass dies seinen Computer nicht für das bevorstehende Schicksal kennzeichnet?

Die Linux-Distribution des Computers ist Red Hat Enterprise Linux Server Version 6.4 (Santiago).

linux-kernel hardware ecc

— CptSupermrkt
quelle

Dies erklärt, was es ist: developer.amd.com/community/blog/ht-assist-what-is-it

— derobert

Whoa, du hast recht! Ich drückte Strg + F auf die Seite und fand "HT Assist oder den Sondenfilter, wie er manchmal genannt wird." Zum Schluss noch ein Hinweis auf den Fehler / Ausgangspunkt! Ich habe viel zu lesen :)

— CptSupermrkt

@derobert das klingt nach einer antwort, nein?

— Braiam

@Braiam dieser Link erklärt nur, was "Sondenfilter" ist ... er erklärt nicht, warum OP dort einen ECC-Fehler erhalten würde oder ob er auf ein echtes Problem hinweist.

— Derobert

Ich habe keine genaue Antwort, aber einiges davon ist bekannt. Ich weiß nicht, was ein Probe Filter-Verzeichnis ist, aber CptSupermrkt hat das oben erklärt.

In PCI stellt eine Northbridge eine Verbindung zum Speicher und zum Prozessor her. ECC-Fehler sind mit DRAM verbunden. Zu jedem Wort sind Fehlerkorrektur-Codebits gespeichert. Bei Lesevorgängen werden sie überprüft, bei Schreibvorgängen werden sie aktualisiert. ECC-Fehler sind korrigierbar oder nicht korrigierbar, was auf die Fähigkeit hinweist, einen Fehler mithilfe der geschriebenen Bits zu korrigieren. Nicht korrigierbar bedeutet nicht, dass ein dauerhafter Hardwarefehler vorliegt. Dies kann passieren, wenn der DRAM ausfällt.

Angesichts all dessen sieht dies wie ein vorübergehender Fehler aus. Sie könnten einen vollständigen Gedächtnistest versuchen, aber das wird wahrscheinlich nichts finden. Wenn der DRAM ausgefallen ist, besteht Ihre einzige Korrekturmaßnahme darin, ihn zu ersetzen.

— MikeLRoy
quelle