Es gibt einen wichtigen Unterschied zwischen einer hohen Verfügbarkeit eines Dienstes und einer hohen Verfügbarkeit einer einzelnen Maschine.
In den meisten Fällen ist das Ziel, den Service hoch verfügbar zu machen, und die Verfügbarkeit einzelner Maschinen ist nur ein Mittel, um dieses Ziel zu erreichen. Es gibt jedoch Grenzen, wie weit Sie dem Ziel näher kommen, wenn Sie die Verfügbarkeit einzelner Maschinen verbessern.
Selbst wenn Sie die gesamte Ausfallzeit aufgrund eines Softwareupdates einkalkulieren könnten, sind die einzelnen Maschinen immer noch nicht zu 100% verfügbar. Um die Verfügbarkeit des Dienstes über die Verfügbarkeit einzelner Maschinen hinaus zu erhöhen, muss Redundanz auf einer höheren Ebene entworfen werden. Der letzte Satz Ihrer Frage zeigt, dass Sie dies zumindest im Prinzip wissen.
Wenn Sie einen Service so konzipieren, dass er verfügbarer ist, als es einzelne Maschinen leisten können, besteht kein Druck mehr, eine hohe Verfügbarkeit einzelner Maschinen zu erreichen. Für hochverfügbare Dienste müssen daher keine Neustarts vermieden werden. Stattdessen können Sie auf die Zuverlässigkeit einzelner Maschinen verzichten, um Einsparungen zu erzielen, die sich auf andere Bereiche auswirken, in denen Sie erheblich höhere Zuverlässigkeitsgewinne erzielen können.
Sobald das High-Level-System für den Fall, dass einzelne Hardwarekomponenten ausfallen, als zuverlässig ausgelegt ist, ändert sich das Live-Patchen von Kerneln von einem Vorteil zu einem Risiko.
Dies ist ein Risiko, da es geringfügige Unterschiede zwischen dem Verhalten eines Computers mit Live-Patches und eines Computers mit der neuesten Kernelversion geben kann. Dies kann einen latenten Fehler verursachen, der beim nächsten Neustart eines Computers zu einem Ausfall führen kann. Dieses Risiko wird durch einen Neustart verstärkt, damit ein sauberer Zustand als Methode zur Minderung einiger Ausfälle angesehen wird.
Eines Tages könnte es zu einem Ausfall kommen, bei dem ein Neustart der Maschine möglicherweise Abhilfe schafft. Beim Neustart werden Sie jedoch von dem latenten Fehler getroffen, der verhindert, dass die Maschine in den gewünschten Zustand zurückkehrt. Live-Patches sind nicht die einzige Möglichkeit, einen solchen latenten Fehler zu verursachen. Sie können auch darauf zurückzuführen sein, dass ein Dienst manuell aktiviert und nie für den Start während des Startvorgangs konfiguriert wurde oder zu früh gestartet wurde kommt wegen unbefriedigter Abhängigkeiten nicht zustande.
Aus diesen Gründen ist ein hochverfügbarer Dienst möglicherweise einfacher zu erreichen, wenn einzelne Computer regelmäßig so langsam neu gestartet werden, dass Sie Probleme erkennen und die Neustartsequenz anhalten können, sobald Probleme auftreten.