Linux beendet die Programme mithilfe von Speicherseiten, deren Bits bis zur Wiederherstellung umgedreht wurden (also ein ECC-Wort mit zwei Umdrehungen), und verwendet dabei ein SIGBUS-Signal. Dann wird diese Seite auf eine schwarze Liste gesetzt, damit sie nicht wiederverwendet wird.
Wenn wiederholt korrigierte Fehler auftreten (normalerweise nicht bei vorübergehenden Flips, aber bei harten Fehlern, die nach der Korrektur bestehen bleiben), werden Seiten transparent auf eine andere physische Seite migriert, wobei jedoch dieselben virtuellen Adressen verwendet werden. Dies erfolgt über einen "Leaky Bucket" -Zähler, der die ECC-Fehler pro Seite in den letzten X Zeiteinheiten zählt.
Diese Ansätze werden als Hard- und Soft-Page-Offline bezeichnet. Sie können mehr lesen und über mcelog , das Teil aller Linux-Kernel ab Version 2.6 ist, auf Fehlerstatistiken / -protokolle zugreifen . Beachten Sie, dass Sie es so einstellen können, dass Ihr Kernel bei jedem Fehler in Panik gerät und den Computer neu startet, wenn Sie dies wünschen.
Dies gibt es auch unter dem Namen Memory Page Retirement in Solaris-Systemen, und andere Betriebssysteme haben zweifellos eine eigene Version davon, obwohl ich die Namen oder Referenzen auf der Oberseite meines Kopfes nicht kenne.
Kurz gesagt, die Hardware meldet die Fehler und das Betriebssystem mildert ihre Auswirkungen. Es besteht also die Möglichkeit, dass Sie nicht viele Symptome bekommen, aber Sie können Ihr Betriebssystem oder Ihre Tools nach Statistiken fragen.