Wir hatten in der vergangenen Woche einen ziemlich schwerwiegenden Ausfall, der verschiedene Services betraf, die uns aus unserer SLA bei Kunden herausgeholt haben. Nachdem alles geklärt ist, führe ich eine Obduktion durch.
Aus dieser Überprüfung möchte ich ein internes Dokument erstellen, das den Ausfall, seine Auswirkungen, unsere Reaktion und die Lösung beschreibt. Ich möchte ein Standardformular für die spätere Wiederverwendung ausarbeiten. Ich habe meine Gedanken unten angegeben, aber welche anderen Elemente sollten enthalten sein? Wenn dies ein sicherheitsrelevanter Vorfall wäre, was würden Sie hinzufügen?
- Zusammenfassung Zusammenfassung der Veranstaltung auf Executive-Ebene.
- Betroffene Dienste
- Auswirkungen Welche Auswirkungen hatten unsere Benutzer und SLAs? Gab es Kosten in US-Dollar, verpasste Transaktionen, verlorene Kunden usw.?
- Ausfalldauer Für jeden betroffenen Service, wenn Abweichungen aufgetreten sind
- Ursache Einschließlich primärer und sekundärer Ursachen
- Auflösung
- Zeitleiste der Ereignisse Benachrichtigungen, Kontakt mit externen Anbietern, Kundenbenachrichtigungen, Antworten usw.
- Probleme mit unserer Reaktion Ist die Reaktion auf den Ausfall nicht wie geplant verlaufen? Richtige Leute benachrichtigt? Sind die Lieferanten ihren vertraglichen Verpflichtungen nachgekommen?
- Vorbeugende Maßnahmen Wie können wir verhindern, dass dieser Ausfall erneut auftritt, oder seine Auswirkungen verringern?
- Erkennungsmethode Wie gut haben wir diesen Ausfall erkannt und wie verbessern wir die Erkennung in Zukunft?
- Änderungen, die bei zukünftigen Ausfallreaktionen vorgenommen werden müssen
Versuchen Sie, die Beiträge auf einen Punkt und eine Erklärung zu beschränken. Dieser Beitrag kann mit den Antworten aktualisiert werden, für die die meisten Stimmen abgegeben wurden.