Für ein Projekt haben wir 50 Server, die alle (im Allgemeinen) mit derselben Hardware ausgestattet sind. Das Problem, das wir hier haben, ist sehr ernst und tritt auf allen Maschinen auf. Trotz großer Anstrengungen und der Kontaktaufnahme mit Herstellern und Softwareentwicklern zeigen alle aufeinander und weigern sich sogar, mir einen Hinweis darauf zu geben, was los ist.
Lassen Sie mich zunächst das Setup beschreiben. Dies ist 'Servergrade'-Hardware. Nach meiner ersten Erfahrung ist Servergrade die größte Enttäuschung in meinem Leben.
- SuperMicro X10SDV-8C + -LN2F
- Intel Xeon D-1540 (eingebettet in das Motherboard)
- Kundenspezifisches 1U-Gehäuse oder SuperMicro-Originalgehäuse
- 480-Watt-Server-Netzteil oder 200-Watt-SuperMicro-Original-Netzteil
- Samsung Evo 850 500 GB SSD
- 32 GB DDR4-2133 ECC oder NON-ECC (jedoch nicht auf demselben Server gemischt)
- Asus GT730 4 GB DDR3 GPU
- Die GPU wird mit einer PCIe-Riser-Karte (kein Farbband) montiert, die namenlos aus China oder dem SuperMicro-Original stammt
Laufen auf dem System - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - VMs führen GPU-intensive Aufgaben aus - Dieses System ist auf Lager, es gibt überhaupt kein Über- / Übertakten
Symptome - Zufälliges BSOD 0x09c (auch bekannt als Machine_Check_Exception): Manchmal läuft das System eine Woche ohne Probleme, manchmal bei Abstürzen nach nur 10 Minuten, meistens jedoch einige Stunden.
Bereits ausprobiert / geprüft:
- BIOS auf die neueste Version aktualisiert (ich würde jetzt denken, dass dies die Zeit für die Stabilität des Systems verbessert hat, aber das könnte zufällig gewesen sein).
- Windows auf die neueste Version aktualisiert.
- VMWare wurde auf die neueste Version aktualisiert.
- Tauschte alle Komponenten aus und probierte jede andere Option aus, versuchte sogar ein Desktop-ATX-Netzteil und eine M.2-SSD.
- Installierte alle Systeme von Grund auf mit Ubuntu. Ich bin nicht mit Linux vertraut und habe noch nie ein Linux-BSOD gesehen, und ich habe es immer noch nicht gesehen, da Serversysteme kopflos sind und ich dies im DC versucht habe. ERGEBNIS: Das System würde hängen bleiben und nach dem Neustart meldete Linux einen XORG-Absturz (GPU-bezogen).
- Die GPU-Einstellung im BIOS wurde auf "Über 4G" geändert. Der Rest des BIOS ist werkseitig.
Auch informativ:
- Systeme befinden sich in einem Rechenzentrum. Temperatur, Luft, Leistung und Netzwerk sind optimal.
- Die Temperaturen liegen deutlich unter dem Werksmaximum
- Wir haben genau das gleiche Software- Setup auf Desktop-Computern (mit Desktop-Hardware). Dieses System kann einwandfrei funktionieren, wenn 1 von 100 PCs jeden Monat abstürzt.
- Ich habe VMWare kontaktiert, sagen wir, dies ist ein Hardwareproblem
- Ich habe SuperMicro kontaktiert, sie sagen nichts wirklich außer einigen Dingen und haben es bereits versucht und auch, dass dies immer noch ein Softwareproblem sein könnte.
Wir sind hier verzweifelt. Die Anwendung, die wir zum Glück ausführen, ist irgendwie überflüssig. Wenn ein Server und die darauf befindlichen VMs ausfallen, ist dies kein Problem. Andere Server übernehmen die Last innerhalb von 5 Minuten. Bei dieser Geschwindigkeit muss ich jedoch den ganzen Tag online sein, um die Server neu zu starten.
Ich habe ein großes Hardware-Wissen, aber das geht darüber hinaus. Ich habe den ganzen Tag über einen Monat lang danach gesucht und alle möglichen Dinge ausprobiert. Die Tatsache, dass diese Motherboards in großem Umfang bei Hosting-Anbietern verwendet werden, lässt mich vermuten, dass das Board selbst in Ordnung ist. Dies ist definitiv kein spezifisches Hardwareproblem für RMA, da alle 50 Karten die gleichen Symptome aufweisen. Das einzige, was bei uns anders ist, ist die GPU. Dies in Kombination mit dem Linux-Experiment lässt mich vermuten, dass dies definitiv etwas auf der PCIe-Spur ist. Die GPU selbst ist auf Desktop-Mobos stabil. Trotz der großen Speicherkapazität ist dies eine kleine GPU, die nicht viel Strom verbraucht. Ich würde die chinesischen Riser-Karten vermuten, aber andererseits verwenden wir auch SuperMicro-zertifizierte Riser und sie zeigen überhaupt keine Verbesserung.
Ich bin sehr verzweifelt, hier eine Lösung zu finden. Dies beginnt mit der Ermittlung der genauen Ursache. Wir sind bereit, einem Experten ein nettes Kopfgeld zu zahlen, der einige Dumps analysieren und uns mehr Details geben kann (oder noch besser eine Lösung).
Mit freundlichen Grüßen,
Simon