Ich habe ein neues HP ProLiant DL360 G7- System, das ein schwer zu reproduzierendes Problem aufweist. Der Server hängt sich während des POST-Vorgangs zufällig im Bildschirm " Power and Thermal Calibration in Progress ... " auf . Dies erfolgt normalerweise nach einem Warmstart / Neustart vom installierten Betriebssystem.
Das System bleibt zu diesem Zeitpunkt auf unbestimmte Zeit stehen. Durch das Auslösen eines Resets oder eines Kaltstarts über die ILO 3-Leistungsregler wird das System normal und ohne Zwischenfälle gestartet.
Wenn sich das System in diesem Zustand befindet, ist die ILO 3-Schnittstelle voll zugänglich und alle Systemzustandsanzeigen sind in Ordnung (alle grün). Der Server befindet sich in einem klimatisierten Rechenzentrum mit Stromanschlüssen zur PDU. Die Umgebungstemperatur beträgt 17 ° C. Das System wurde vor der Bereitstellung ohne Fehler in eine 24-Stunden-Testschleife für Komponenten gestellt.
Das primäre Betriebssystem für diesen Server ist VMWare ESXi 5. Zunächst haben wir 5.0 und später ein 5.1-Build ausprobiert. Beide wurden über PXE-Boot und Kickstart bereitgestellt. Darüber hinaus testen wir mit Baremetal-Windows- und Red Hat Linux-Installationen.
HP ProLiant-Systeme verfügen über umfassende BIOS-Optionen. Wir haben zusätzlich zum statischen Hochleistungsprofil die Standardeinstellungen ausprobiert. Ich habe den Startbildschirm deaktiviert und bekomme an dieser Stelle nur einen blinkenden Cursor im Vergleich zum obigen Screenshot. Wir haben auch einige VMWare- Best Practices für die BIOS- Konfiguration ausprobiert . Wir haben eine Empfehlung von HP erhalten, die anscheinend ein ähnliches Problem aufzeigt, unser spezifisches Problem jedoch nicht behoben hat.
Ich hatte den Verdacht, dass ein Hardwareproblem vorliegt, und ließ den Anbieter ein identisches System für die Lieferung am selben Tag senden. Der neue Server war bis auf die Festplatten völlig identisch aufgebaut. Wir haben die Festplatten vom alten auf den neuen Server verschoben. Bei der Ersatzhardware trat das gleiche zufällige Bootproblem auf.
Ich habe jetzt beide Server parallel laufen. Das Problem trifft zufällig auf Warmboots. Kalte Stiefel scheinen das Problem nicht zu haben. Ich untersuche einige der esoterischeren BIOS-Einstellungen, wie das Deaktivieren von Turbo Boost oder das vollständige Deaktivieren der Energiekalibrierungsfunktion. Ich könnte diese probieren, aber sie sollten nicht notwendig sein.
Irgendwelche Gedanken?
--bearbeiten--
Systemdetails:
- DL360 G7 - 2 x X5670 Hex-Core-CPUs
- 96 GB RAM (12 x 8 GB Niederspannungs-DIMMs)
- 2 x 146 GB 15 k SAS-Festplatten
- 2 redundante 750-W-Netzteile
Die gesamte Firmware ist auf dem neuesten Stand des HP Service Packs für ProLiant DVD.
Bei einem Anruf bei HP und dem Durchsuchen des Interwebz wurde von einer schlechten ILO 3-Interaktion gesprochen. Dies geschieht jedoch auch mit dem Server auf einer physischen Konsole. HP schlug ebenfalls eine Stromquelle vor, diese befindet sich jedoch in einem Rechenzentrums-Rack, das andere Produktionssysteme erfolgreich mit Strom versorgt.
Besteht die Möglichkeit einer schlechten Wechselwirkung zwischen Niederspannungs-DIMMs und den 750-W-Netzteilen? Dieser Server sollte eine unterstützte Konfiguration sein.