Evan trifft einige gute Punkte, aber hier sind vielleicht einige kostengünstige Methoden, um die Wiederherstellungszeit von weniger als 1 Stunde angesichts von Fehlern zu erreichen.
Small Business bedeutet wahrscheinlich kleine Hardware, daher ist es möglicherweise nicht sehr kostspielig, einige einfache Dinge zu tun, die angesichts von Problemen tatsächlich zu einer erheblichen Ausfallsicherheit führen. Die Hauptidee ist nur, zusätzliche Hardware bereit zu haben.
Machen Sie sich zunächst mit dem Gedanken an eine virtuelle IP vertraut. Dies ist die IP-Adresse, mit der Benutzer sprechen, die sich jedoch auf jedem Server befinden kann, dem Sie sie geben. Dies ist die IP-Adresse, mit der Sie Benutzer sind und mit der Anwendungen kommunizieren möchten. Und es ist die hilfreichste Lösung für jede Lösung, für die Sie sich entscheiden. Ein VIP bedeutet, dass Sie bei einem Failover keine der Anwendungen neu konfigurieren müssen. Beachten Sie auch, dass redundante Hardware auch den Verwaltungsaufwand erhöht und zwei Konfigurationsaktualisierungen anstelle von 1 durchführt.
Wenn wir mit Ihrem Routing- / Webproxyserver beginnen, ist dies wahrscheinlich der einfachste, da es sich nicht um einen echten Status handelt, der auf der Box selbst gespeichert werden muss. Holen Sie sich also einfach ein Duplikat derselben Box und konfigurieren Sie es gleich. Ich würde beide im LAN-Segment angeschlossen lassen und vorausgesetzt, Ihr Internet befindet sich auf einer anderen Schnittstelle, tauschen Sie die Kabel aus, wenn dies ein Fehler ist. Aus Routing-Sicht legen Sie alle LAN-Clients so fest, dass sie auf die .1-Adresse (VIP) für ihre Standardroute abzielen, und der Proxyserver gibt Server A die .2-Adresse und Server B die .3-Adresse. Auf diese Weise können beide für Konfigurationsaktualisierungen verwaltet werden (gilt für beide). Für ein Failover müssen Sie lediglich die .1-IP-Zuweisung von .2 entfernen und auf .3 verschieben und die Internetverbindung auf die andere Schnittstelle verschieben. Es ist nicht sehr kompliziert, leicht zu machen und zu verstehen, und kostet die zusätzliche Hardware einer zweiten Box. Wenn Sie auf der Internetseite Redundanz erhalten, können Sie die Komplexität erhöhen und ein automatisches Failover mit VRRP durchführen.
Ohne Einzelheiten ist es schwer zu sagen, aber Ihr Webserver ist möglicherweise genauso einfach. Fügen Sie einen zweiten Server mit identischer Konfiguration hinzu, erstellen Sie eine vIP zwischen den beiden und verschieben Sie den VIP angesichts eines Fehlers in die Sicherung. Es macht mir im Allgemeinen nichts aus, wenn der Sitzungsstatus bei einem Failover verloren geht (es ist ein kritisches Problem, ein Failover zu verursachen). Wenn sich Benutzer erneut anmelden müssen, ist dies keine große Sache. Auch hier kann vrrp wahrscheinlich für das automatische Failover verwendet werden.
Wenn Sie sich Ihrer Datenbank zuwenden, ist dies erheblich komplexer. Die meisten DBs haben eine Art primäres / sekundäres Modell, bei dem Sie die ursprüngliche DB auf der sekundären sichern und dann alle Transaktionsprotokolle oder DB-Änderungen auf die sekundäre kopieren. Auch hier können Sie dies mit VIPs für die Anwendungen / Benutzer kombinieren, die tatsächlich auf die Datenbank zugreifen. Failover ist jedoch komplizierter. Abhängig vom Ausfall der Primärdatenbank müssen Sie möglicherweise die Laufwerke tatsächlich zum Laufen bringen, um Transaktionsprotokolle zu kopieren und übrig zu lassen. Dann bringen Sie die sekundäre aktive. Wenn Sie verlorene Daten tolerieren können, können Sie die sekundäre aktive sofort aktivieren. Nach dem Failover ist Server B jetzt Ihr primärer Server, und Sie müssen Server A wiederherstellen und in das neue Backup umwandeln, damit es fehlgeschlagen werden kann, wenn Server b schließlich Probleme hat.
Dateiserver sind immer der schwierigste Teil, da es im Gegensatz zu DBs viel schwieriger ist, eine integrierte Funktion des Dateisystems zu erhalten. Ein gewisses Maß an Ausfallsicherheit kann jedoch erreicht werden, indem Sie einen zweiten Server haben und einfach ein Skript schreiben, das das Dateisystem nach Änderungen durchsucht und alle neuen Dateien in Ihre sekundäre Datei kopiert. Sie können rsync grundsätzlich auf einem Cron ausführen, von dem ich glaube, dass er dies tut. Auch hier verwenden Sie einen VIP, den Sie Benutzern geben und den Sie bei einem Failover verschieben. In Ihrem Skript würde ich Ihnen dringend empfehlen, vor dem Übertragen von Dateien zu überprüfen, ob das System der Eigentümer des VIP ist. Sie möchten wirklich nicht, dass der rsync in die falsche Richtung ausgeführt wird und alle von Ihren Benutzern vorgenommenen Änderungen überschreibt. Dies könnte einige Dateien verlieren, wenn sie fehlerhaft sind.
Ich habe keine Ahnung, was Sie gegen Ihr Telefonsystem tun können ... es hängt wirklich vom Hersteller und dessen Einrichtung ab. Der Anbieter verfügt möglicherweise über eine Standardlösung für die Ausfallsicherheit.
Einige letzte warnende Worte. Stellen Sie sicher, dass Sie alle Einstellungen, mit denen Sie arbeiten möchten, gründlich testen. Stellen Sie sicher, dass Sie wissen, wie Sie ein Failover durchführen können, ohne diese wichtigen Informationen zu verlieren. Test Test Test, um sicherzustellen, dass es funktioniert, wenn Sie es brauchen. Stellen Sie sicher, dass Prozesse vorhanden sind, mit denen Konfigurationsänderungen, Softwareupdates usw. sowohl auf Primär- als auch auf Sicherungen ordnungsgemäß angewendet werden. Die gute Nachricht ist, dass Sie wahrscheinlich kontrollierte Failovers durchführen können, wenn Sie einen Server zum Upgrade herunterfahren möchten usw. Es handelt sich nicht um ein Aktiv-Aktiv-Setup, sodass Sie keine Ahnung haben, ob das sekundäre Setup bei Bedarf funktioniert.
Ich arbeite in der Telekommunikation und unsere Geräte sind sehr redundant, einschließlich in den meisten Fällen geografischer Redundanz. Unser Fehlerpunkt Nummer 1 ist, dass Redundanz nach Änderungen nicht getestet wird und Benutzer Änderungen vornehmen, die nicht wissen, wie das Redundanzmodell funktioniert. Wir haben jedoch das zusätzliche Problem, dass alle unsere Geräte ein automatisches Failover in nicht mehr als einigen Sekunden unterstützen müssen. Sie können manuelle Eingriffe in Ihr Failover tolerieren, wenn Sie nur innerhalb von 30 bis 60 Minuten einsatzbereit sein müssen. Sie müssen nur vorbereitet sein. Viel Glück.