Zuerst muss ich fragen: "Herunterfahren"? Meinen Sie damit, dass der Computer neu startet oder tatsächlich anhält? Wenn es anhält, ist es entweder falsch konfiguriert (möglicherweise im BIOS) oder der Computer wird aktiv heruntergefahren (z. B. init 0).
Wenn nicht, wäre Ihr Hauptkandidat / var / log / syslog und /var/log/kern.log, da sich Ihr Problem wie eine Kernel-Panik oder ein durch Software ausgelöster Hardwarefehler anhört. Wenn auf dem Server ein Dienst ausgeführt wird (z. B. Apache), können Sie natürlich auch einen Hinweis erhalten.
In solchen Situationen werden häufig Protokolleinträge generiert. Da der Computer jedoch Probleme hat, kann er die Einträge nicht auf die Festplatte schreiben. Wenn die Box zusammengestellt ist, besteht die Möglichkeit, dass sie vom colo-Partner an eine serielle Konsole angeschlossen wird. Dort würde ich suchen, wenn ich in den obigen Protokollen nichts Verdächtiges finden würde.
Wenn der Computer nicht mit einer seriellen Konsole verbunden ist und sich nichts im Protokoll befindet, können Sie Syslog über das Netzwerk an eine andere Box senden. Möglicherweise überlebt die Netzwerkschnittstelle etwas länger, und die Protokollmeldungen können auf dem Syslog-Server gelesen werden. Schauen Sie sich rsyslog oder syslog-ng an.
AKTUALISIEREN:
Ich stimme @Johann unten zu. Die wahrscheinlichste Ursache für den Stillstand ist die Überwachung der Prozessortemperatur. Versuchen Sie, die Temperatur in der Box über lmsensors oder smartctl (normalerweise die einfachste) zu überprüfen / zu zeichnen. Ich finde, dass collectd beispiellos ist, wenn es darum geht, eine große Anzahl von Variablen im Laufe der Zeit zu verfolgen. Es kann sowohl IPMI als auch lm-Sensoren und hddtemp. Außerdem protokollieren einige BIOS: es Temperaturstoppereignisse.