Obwohl dies nicht gerade eine Aufgabe war, musste ich mich von erzwungenen Ausfallzeiten erholen.
Ich war die SA für eine ziemlich große Finanzseite. Wir kannten unsere Systeme in- und auswendig, verfügten über zentralisierte Protokollierung und großartige Tools, um sie zu durchsuchen.
Plötzlich (natürlich kurz vor der Deadline) sind alle Handys verrückt nach Alarmmeldungen. Stellen Sie sicher, dass die Site nicht verfügbar ist und alle SA-Mitarbeiter ihre Aktivitäten einstellen und Nachforschungen anstellen.
Apache-Protokolle waren in Ordnung, die Datenbank hat keine Fehler ausgelöst und die Caches drehten sich einwandfrei. Es gab genügend freie Ressourcen, das Netzwerk war in Ordnung und es wurden keine neuen Bereitstellungen durchgeführt.
10 Minuten später erfahre ich, dass einer der Entwickler Zugriff auf die Site erhalten und einen Würfel hinzugefügt hat (); in einem obskuren Modul zur Seitenerstellung.
Mit anderen Worten, die Software hat das getan, wozu sie aufgefordert wurde, und es gab keine Protokollinformationen, die geholfen hätten.
Der GM für die Firma, die die Seite betrieben hat, hat sich ein breites Grinsen ausgedacht und gesagt, er wolle uns stempeln. Ich sagte ihm, er solle meine Produktionsserver ausrasten und nicht anrühren, wir hätten großartige Disaster Recovery-Pläne, aber die Inkompetenz seines Entwicklers stellte sicher, dass keiner dieser Pläne in Gang kam.
Wenn er unsere Reaktionszeit überprüfen wollte, hätte er es zumindest mit dem CTO besprechen und fragen sollen, ob er es "irgendwann heute" oder "diese Woche" könnte. Auf diese Weise wäre niemand verärgert gewesen, und wir hätten keine Zeit damit verschwendet, uns darüber zu streiten.
Die ganze Veranstaltung war eine der unprofessionellsten, die ich bisher erlebt habe.