Eine Seite meines Kunden hat letzte Woche einen direkten Blitzschlag erhalten (zufällig am Freitag, den 13.! ).
Ich war weit weg von der Baustelle, aber als ich mit jemandem vor Ort zusammenarbeitete, entdeckte ich ein merkwürdiges Schadensmuster. Beide Internetverbindungen waren ausgefallen, die meisten Server waren nicht erreichbar. Ein Großteil des Schadens trat in der MDF auf , aber eine über Glasfaser verbundene IDF verlor auch 90% der Ports auf einem Switch-Stack-Mitglied. Es standen genügend Ersatz-Switch-Ports zur Verfügung, um die Verkabelung an anderer Stelle neu zu verteilen und zu programmieren. Es kam jedoch zu Ausfallzeiten, während wir betroffene Geräte verfolgten.
Dies war ein neues Gebäude / eine neue Lagereinrichtung, und viel Planung steckte in der Gestaltung des Serverraums. Der Hauptserverraum wird von einer APC SmartUPS RT 8000VA -Online-Doppelkonvertierungs-USV mit Generator betrieben. Alle angeschlossenen Geräte wurden ordnungsgemäß mit Strom versorgt. Offsite-Datenreplikation und Systemsicherungen wurden durchgeführt.
Insgesamt war der Schaden (dessen ich mir bewusst bin):
- Fehlerhafte 48-Port-Line-Karte in einem Cisco 4507R-E-Chassis-Switch .
Fehler beim Cisco 2960-Switch in einem 4-Mitglieder-Stack.(oops ... loses Stapelkabel)- Mehrere schuppige Ports an einem Cisco 2960-Switch.
- HP ProLiant DL360 G7 Motherboard und Netzteil.
- Elfiq WAN Link Balancer.
- Ein Multitech-Faxmodem.
- WiMax / Fixed-Wireless Internet Antenne und Power-Injector.
- Zahlreiche mit PoE verbundene Geräte (VoIP-Telefone, Cisco Aironet Access Points, IP-Sicherheitskameras)
Die meisten Probleme betrafen den Verlust eines gesamten Switch Blades im Cisco 4507R-E. Dies enthielt einen Teil des VMware NFS-Netzwerks und den Uplink zur Firewall des Standorts. Ein VMWare-Host ist ausgefallen, HA hat sich jedoch um die VMs gekümmert, nachdem die Storage Networking-Konnektivität wiederhergestellt wurde. Ich musste eine Reihe von Geräten neu starten / aus- und wieder einschalten, um unkonventionelle Stromzustände zu löschen. Die Zeit zur Genesung war also kurz, aber ich bin gespannt, welche Lektionen gelernt werden sollten ...
- Welche zusätzlichen Schutzmaßnahmen sollten implementiert werden, um Geräte in Zukunft zu schützen?
- Wie gehe ich bei Garantie und Ersatz vor? Cisco und HP ersetzen Vertragsgegenstände. Der teure WAN-Link-Balancer von Elfiq hat auf seiner Website einen Klappentext , der im Grunde gesagt hat: " Schade , verwenden Sie einen Netzwerk-Überspannungsschutz ". (Scheint, als ob sie diese Art von Versagen erwarten)
- Ich war lange genug in der IT, um in der Vergangenheit einen Sturmschaden zu erleiden, aber mit sehr geringen Auswirkungen. zB die Netzwerkschnittstelle eines billigen PCs oder die Zerstörung von Mini-Switches.
- Kann ich noch etwas tun, um potenziell schuppige Geräte zu erkennen, oder muss ich einfach warten, bis merkwürdiges Verhalten auftritt?
- War das alles nur Pech oder etwas, das bei der Notfallwiederherstellung wirklich berücksichtigt werden sollte?
Mit genügend Geld ist es möglich, alle Arten von Redundanzen in eine Umgebung zu integrieren. Aber was ist hier ein angemessenes Gleichgewicht zwischen vorbeugendem / durchdachtem Design und effektivem Einsatz von Ressourcen?