Angenommen, ich führe 4 Stunden lang eine Supercomputerberechnung mit 100.000 Kernen unter http://www.nersc.gov/users/computational-systems/edison/configuration durch , tausche ungefähr 4 PB Daten über das Netzwerk aus und führe ungefähr 4 TB I / Ö. Die Berechnung ist ganzzahlig, daher sind die Ergebnisse entweder richtig oder falsch (keine numerischen Zwischenfehler).
Unter der Annahme, dass der Code korrekt ist, möchte ich die Wahrscheinlichkeit abschätzen, dass die Berechnung aufgrund eines Hardwarefehlers falsch ist. Was ist ein guter Weg, um dies zu tun? Gibt es gute Quellen für die Zahlen, die für eine solche Schätzung erforderlich sind?