Das von Ihnen angegebene CMU-Intel-Papier zeigt (auf Seite 5), dass die Fehlerrate stark von der Teilenummer / dem Herstellungsdatum des DRAM-Moduls abhängt und um den Faktor 10-1000 variiert. Es gibt auch einige Hinweise darauf, dass das Problem bei kürzlich (2014) hergestellten Chips viel weniger ausgeprägt ist.
Die von Ihnen angegebene Zahl '9.4x10 ^ -14' wurde im Zusammenhang mit einem vorgeschlagenen theoretischen Abschwächungsmechanismus namens "PARA" verwendet (der möglicherweise einem vorhandenen Abschwächungsmechanismus pTRR (Pseudo Target Row Refresh) ähnelt) und ist für Sie irrelevant Frage, weil PARA nichts mit ECC zu tun hat.
In einem zweiten CMU-Intel-Artikel (Seite 10) werden die Auswirkungen verschiedener ECC-Algorithmen auf die Fehlerreduzierung (Faktor 10 ^ 2 bis 10 ^ 5, möglicherweise weitaus mehr mit ausgefeilten Speichertests und "Guardbanding") erwähnt.
ECC verwandelt den Row Hammer-Exploit effektiv in einen DOS-Angriff. 1-Bit-Fehler werden vom ECC korrigiert, und sobald ein nicht korrigierbarer 2-Bit-Fehler erkannt wird, stoppt das System (unter der Annahme von SECDED ECC).
Eine Lösung besteht darin, Hardware zu kaufen, die pTRR oder TRR unterstützt. Lesen Sie den aktuellen Blog-Beitrag von Cisco über Row Hammer . Zumindest scheinen einige Hersteller einen dieser Abschwächungsmechanismen in ihre DRAM-Module eingebaut zu haben, halten ihn jedoch in ihren Spezifikationen tief verborgen. Um Ihre Frage zu beantworten: Fragen Sie den Verkäufer.
Schnellere Aktualisierungsraten (32 ms statt 64 ms) und aggressive Patrol Scrub-Intervalle helfen ebenfalls, wirken sich jedoch auf die Leistung aus. Ich kenne jedoch keine Serverhardware, die es tatsächlich ermöglicht, diese Parameter zu optimieren.
Ich denke, es gibt nicht viel, was Sie auf der Seite des Betriebssystems tun können, außer verdächtige Prozesse mit konstant hoher CPU-Auslastung und hohen Cache-Fehlern zu beenden.