Was war der größte Ausfall, an dem Sie beteiligt waren?

7

Ausfälle sind einige der Dinge, die wir zu vermeiden versuchen, aber sie sind unvermeidlich: Sie treten auf (wir hoffen sehr selten) und wir müssen wissen, wie wir mit ihnen umgehen sollen (und daraus lernen).

Also, was war der größte Ausfall, an dem Sie beteiligt waren? Wie sind Sie und Ihr Team mit dem Problem umgegangen? Was hast du für die Zukunft gelernt? Bitte teilen Sie Ihre Gedanken :)

outage

— Marco Ramos
quelle

12

Dies sollte ein Community-Wiki sein.

— Warner

Ich möchte, dass jemand, der während des freien Tages von SparkFun gearbeitet hat, hier ist :)

— Earlz

War Teil des Stromnetzausfalls im Mittleren Westen im Jahr 2003. Ich habe erfahren, dass es im Rechenzentrum sehr heiß wird, ohne dass die Klimaanlage läuft.

— Squillman

@squillman: Ich auch. Es war ein surreales Ereignis. Die Stadt, in der ich lebe, war eine der wenigen Städte, die Strom hatten, also fuhren alle aus den umliegenden Gemeinden (Greater Cleveland) in meine Stadt, um Benzin und Essen zu holen. Es war wie eine Szene aus dem Film Deep Impact.

— Joeqwerty

@joe: hah, ja, vielleicht hast du mich damals gesehen :) Einer meiner Mitarbeiter war auf einer der Untersetzer bei Cedar Pointe, als die Dinge schwarz wurden. War nicht allzu glücklich darüber.

— Squillman

4

Ich bin fast jeden Tag Teil von Ausfällen (Überwachen Sie WAN-Links für 44 Websites). Die "Kleinen" sind diejenigen, die weniger als 5 Minuten dauern und die meiste Zeit "unbemerkt" bleiben (Das NOC überwacht aus irgendeinem Grund nur Ausfälle von mehr als 5 Minuten). Ich versuche, mit der Site zu kommunizieren, um festzustellen, ob es sich um ein internes Problem handelt, und überprüfe die Router-Protokolle, wenn das Problem "unbekannt" ist.

Ich finde, Kommunikation ist der Schlüssel (und das ist eine Untertreibung!), Wenn es um Ausfälle geht. Warten Sie nicht darauf, angerufen zu werden, wenn Sie Fehler beheben oder herausfinden möchten, was genau passiert. Stellen Sie sicher, dass Sie mitteilen, dass Sie wissen, dass sie nicht verfügbar sind, und dass Sie daran arbeiten. Geben Sie ihnen einen Zeitrahmen, in dem Sie zu ihnen zurückkehren, um sie über die Situation (ETR) zu informieren. Lassen Sie sie nicht hängen, um zu glauben, dass Sie sie vergessen haben. Stellen Sie sicher, dass sie WISSEN, dass jemand ihr Problem untersucht. Sie rufen sie an, damit sie Sie nicht anrufen müssen.

Zum Glück war die längste Zeit, die eine Website unter meiner Beobachtung war, 7 Stunden (dies ist innerhalb eines Arbeitstages von 10 bis 17 Uhr). Es hätte um einige Stunden kürzer sein müssen, wenn nicht die gute Kommunikation zwischen allen Beteiligten gewesen wäre. Ziemlich genau, das Problem wurde nicht richtig eskaliert, und aufgrund der Annahme, dass "jemand daran gearbeitet hat", dauerte es (relativ für die Site) ewig, bis es gelöst war.

— l0c0b0x
quelle

Ihr Recht in Bezug auf den Kommunikationsteil, aber ich habe diesen Teil immer gehasst. Ich meine, duh, es ist schlecht. Ich mag immer die Frage "Was ist die ETA?" Und in meinen Gedanken denke ich ein bisschen wie die ETA, wenn ich sie reparieren kann!

— Tony Roth

Wieder +1 für die Kommunikation. @tony, das gleiche passiert mir, ich muss nur grinsen und es ertragen, vertrau mir, es ist schlimmer, überhaupt nicht zu kommunizieren :-)

— Josh

6

Wir hatten eine Heizungsdampfleitung, die durch den Bruch unseres Rechenzentrums verlief. Sehr heiß, Kondenswasser und Asbestisolierung überall. Stromausfall für Wochen während der Reinigung.

OK, die Sachen meiner Gruppe waren BGP-gepaart, Lastausgleich zwischen mehreren Rechenzentren. Wir hatten einen Bruchteil unserer Benutzer, die ein 30-Sekunden-Einfrieren sahen, bevor ihre aktuelle Transaktion übertragen wurde. Bei vielen anderen Projekten kam es zu Ausfällen von bis zu mehreren Tagen, wobei jeder viel Überstunden machte, um allen anderen zu helfen.

Gelernte Lektionen: Führen Sie zuerst Ihre Kontinuitätsplanung durch und bauen Sie dann Ihr System auf, um Ihre Schlussfolgerungen zu unterstützen:

Wenn Sie eine Woche Ausfallzeit nicht tolerieren können, planen und üben Sie Ihren Transfer. Anstelle von primären / Failover-Sites haben Sie Blau / Gold und wechseln alle zwei Wochen, um sicherzustellen, dass alles aktualisiert und verfügbar ist.
Wenn Sie eine halbe Stunde bis zu einem Tag oder so nicht tolerieren können, sollten Sie den Lastausgleich zwischen den aktiven Standorten durchführen. Sie werden weniger Zeit und Mühe damit verbringen, es einzurichten, als Sie unter Druck damit verbringen werden, die Wiederherstellung gegen die Uhr durchzuführen.
Wenn Sie Minuten Ausfallzeit nicht tolerieren können, müssen Sie sich viel Mühe geben, um echte Hochverfügbarkeit zu erreichen. Am besten beauftragen Sie einen erfahrenen Berater.
Um die Hierarchie zu vervollständigen, benötigen Sie spezielle Hardware sowie spezielles Design, wenn Sie keine Ausfallzeiten von Sekunden tolerieren können. Sie besser sein der Experte

— mpez0
quelle

4

Ich nahm an einem Vorstellungsgespräch in einem Unternehmen teil, das derzeit in seinem über 50-köpfigen Benutzerbüro einem vollständigen Netzwerkausfall ausgesetzt war. Ich löste es innerhalb von Minuten und lernte ihren aktuellen Systemadministrator und ihre IT-Support-Firma kennen, die sie angerufen hatten, weil er es nicht lösen konnte - sie hatten den ganzen Morgen damit verbracht, herauszufinden, was schief lief.

Der Vorgänger hatte zwei WLAN-Router im Bridge-Modus installiert und beide an das kabelgebundene Netzwerk angeschlossen. Sie waren kaum in Reichweite voneinander, so dass sie eine Schleife in ihrem Netzwerk hatten, die kam und ging, wenn der Empfang variierte.

Unnötig zu erwähnen, dass ich den Job bekommen und dann einige Änderungsmanagement-Protokolle implementiert habe, sobald ich angefangen habe.

— WheresAlice
quelle

1

Ich habe einen einwöchigen Ausfall unseres gesamten Servernetzwerks erlebt. Wir haben uns damit befasst, indem wir ein Redundanznetzwerk erstellt haben, um das gleiche Problem in Zukunft zu vermeiden. Während des Ausfalls haben wir jedoch einen alten Server verwendet, den wir an einem Remotestandort eingerichtet hatten. Wir haben gelernt, immer einen Backup-Plan zu haben.

— Nik
quelle

1

Der wahrscheinlich größte war ein 4-tägiger Ausfall des gesamten HQ-Netzwerks, der durch ein größeres Netzwerk-Upgrade verursacht wurde.

Der größte Tipp, den ich habe, ist ein etablierter, robuster Incident-Management-Prozess. Von der Velocity 2008-Konferenz gab es eine brillante Präsentation über die Anpassung des allgemeinen Incident Command Systems, das vom Notfallpersonal ( http://en.wikipedia.org/wiki/Incident_Command_System ) verwendet wird, auch an IT-artige Vorfälle: http: // en .oreilly.com / Velocity2008 / public / Schedule / Detail / 1525

Wir haben uns bei der Entwicklung unseres eigenen internen "Sev1" -Vorfallprozesses intensiv damit beschäftigt. Es betont die Kommunikation, die Einheit des Kommandos, die klare Übergabe von Verantwortlichkeiten und andere großartige Dinge.

Ich werde auch einen Plug für das Transparent Uptime-Blog einstecken: http://www.transparentuptime.com/ - es ist auf Onlinedienste ausgerichtet, aber seine allgemeinen Regeln, wie / was bei einem Ausfall zu kommunizieren ist, gelten für interne IT-Ey-Inhalte wie Gut. http://www.transparentuptime.com/2010/03/guideline-for-postmortem-communication.html speziell - wir hatten eine Manager-Krippe davon und haben angefangen, Mitteilungen in diesem Format zu versenden, und Sie würden die positive Antwort nicht glauben.

— Ernest Mueller
quelle

0

Wie gut zeitlich abgestimmt. Ich bin gerade von einer Notfallreise zu einem der von uns unterstützten Standorte zurückgekommen.

Was die Auswirkungen auf die Benutzer angeht, war dies keine große Auswirkung, aber es hatte das Potenzial dazu. Im Rahmen eines laufenden Projekts zur Migration einiger Websites von unserem Support haben wir eine neue vertrauenswürdige Domain erstellt. Nach umfangreichen Tests haben wir uns darauf vorbereitet, dass die erste Site auf die neue Domain migriert wird, die wir noch verwalten würden. Die Nacht der Migration kommt also und wir beginnen mit der Migration eines von zwei Domänencontrollern in die neue Domäne. Das geht gut. Wir migrieren die Sicherheitsgruppen und Benutzerkonten. Das geht auch gut und die Gruppenmitgliedschaft wird ordnungsgemäß aktualisiert. Wir migrieren den Dateiserver und führen eine Sicherheitsübersetzung durch, um die ACLs zu aktualisieren. Wieder geht alles gut. Migrieren Sie App-Server und aktualisieren Sie IAS für VPN ohne Probleme. Anschließend migrieren wir einen Testbenutzer-PC und der Benutzer behält seine Profileinstellungen bei und kann perfekt auf alle Netzwerkressourcen zugreifen. Wir migrieren dann den anderen DC. Wir migrieren dann die verbleibenden Computer und die Hälfte schlägt fehl. Wir stellen fest, dass die lokale XP-Firewall aktiviert ist. Ich schiebe sofort ein Gruppenrichtlinienobjekt auf die Site, um es auszuschalten, muss aber warten, bis der Computer aktualisiert ist. Dies geschieht nicht schnell genug und die Benutzer kommen an. Sie können sich nicht bei der ursprünglichen Domäne anmelden, da sich beide Domänencontroller auf der neuen befinden.

Versuchen Sie stattdessen, einen Domänencontroller wieder zur ursprünglichen Domäne hinzuzufügen. Wir aktualisieren die Firewall-Regeln, um den Zugriff auf andere Remote-Domänencontroller für die ursprüngliche Domäne zu ermöglichen, und nehmen die 3-stündige Fahrt zur Site.

Wenig Schlaf: Das Gruppenrichtlinienobjekt zum Deaktivieren der lokalen Firewall wurde jetzt verschoben. Ohne nachzudenken, greife ich nach allen Computerobjekten und treibe die Migration voran. Ich habe vergessen, dass dies die Computerobjekte zurücksetzt. Jetzt werden alle erfolgreich migrierten PCs aus der Domäne entfernt.

Um die Sache noch schlimmer zu machen, funktioniert der lokale Administratorausweis, den wir mit unserem Image einführen, aufgrund einer längst vergangenen Technologie vor Ort, die sie zurücksetzt, nicht.

Ich habe das Wochenende damit verbracht, alle PCs manuell zur neuen Domäne hinzuzufügen, nachdem ich eine Bootdiskette zum Löschen des lokalen Administratorausweises verwendet hatte.

Gewonnene Erkenntnisse:

Erwarten Sie das Unerwartete und versuchen Sie, alle potenziellen Probleme zu antizipieren.
Zentralisieren Sie die Verwaltung von Dingen wie lokalen Administratorkennwörtern und Firewall-Einstellungen
- Gruppenrichtlinienobjekte und Gruppenrichtlinieneinstellungen
Nehmen Sie sich eine weitere Minute Zeit, um sicherzustellen, dass Sie die Dinge richtig machen, bevor Sie auf klicken.

Entschuldigung, das war langwierig.

— HostBits
quelle