Die wichtigsten Serverausfälle im letzten Jahrzehnt


7

Was ist die bedeutendste Serverausfall- / Ausfallzeit, die innerhalb des letzten Jahrzehnts aufgrund von Leistungsproblemen, Engpässen und Skalierbarkeitsproblemen aufgetreten ist?

Zwei solche Beispiele sind die ständigen Probleme, die Twitter hatte, als es populär wurde, und die Ausfallzeit von Google Anfang 2009.

Welche anderen derartigen Vorfälle sind Ihnen bekannt, von denen Sie glauben, dass sie eine große Menge an Chaos verursacht haben, das die größte Anzahl von Benutzern betrifft? Was kann man aus solchen Vorfällen lernen? Wie haben diese Unternehmen öffentlich auf ihre Ausfallzeiten reagiert?

Antworten:


3

Northeast Blackout von 2003

Der Northeast Blackout von 2003 war ein massiver, weit verbreiteter Stromausfall, der am Donnerstag, dem 14. August 2003, gegen 16:15 Uhr in Teilen des Nordostens und des Mittleren Westens der USA sowie in Ontario, Kanada, auftrat. Ost: UTC -5. Zu dieser Zeit war es nach dem Stromausfall in Südbrasilien 1999 der am zweithäufigsten verbreitete Stromausfall in der Geschichte. [1] [2] Der Stromausfall betraf schätzungsweise 10 Millionen Menschen in Ontario und 45 Millionen Menschen in acht US-Bundesstaaten.

Ein SoftwarefehlerDas Unix-basierte XA / 21-Energiemanagementsystem von General Electric Energy war als Race-Bedingung bekannt. Nach dem Auslösen blockierte der Fehler das Alarmsystem des Kontrollraums von FirstEnergy für mehr als eine Stunde. Die Systembetreiber waren sich der Fehlfunktion nicht bewusst. Der Fehler beraubte sie sowohl akustischer als auch visueller Warnungen für wichtige Änderungen des Systemzustands. [11] [12] [13] Nach dem Ausfall des Alarmsystems wurden nicht verarbeitete Ereignisse in die Warteschlange gestellt und der Primärserver fiel innerhalb von 30 Minuten aus. Dann wurden alle Anwendungen (einschließlich des blockierten Alarmsystems) automatisch auf den Sicherungsserver übertragen, der selbst um 14:54 Uhr fehlschlug. Die Serverausfälle verlangsamten die Bildschirmaktualisierungsrate der Computerkonsolen des Bedieners von 1 bis 3 Sekunden auf 59 Sekunden pro Bildschirm. Das Fehlen von Alarmen führte dazu, dass die Betreiber einen Anruf von American Electric Power wegen Auslösung und Wiedereinschaltung einer gemeinsamen 345-kV-Leitung im Nordosten von Ohio zurückwiesen. Der technische Support informierte das Personal des Kontrollraums um 15:42 Uhr über den Ausfall des Alarmsystems. [14]


2

Mein Geld ist bei Amazon, 6. Juni 2008.
Gegen 10:25 Uhr PST wurde die Amazon-Einzelhandels-Website nicht mehr erreichbar. Alle anderen Amazon-Server und -Dienste funktionierten ordnungsgemäß. Darüber hinaus war https-Zugriff auf die Website verfügbar.
Die Seite war ~ 2 Stunden lang nicht erreichbar.
Schätzungen zufolge hat Amazon ein potenzielles Einkommen von 31.000 USD / Minute und viel Glaubwürdigkeit verloren (Amazon-Aktien fielen an diesem Tag um 2,7%).
Es wird angenommen, dass die Hauptursache eine fehlerhafte Definition in der Lastausgleichsschicht war, aber niemand von Amazon wird dies bestätigen / ablehnen.


2

Im Jahr 2008 gab es einen 3-stündigen Ausfall der Amazon S3- und EC2-Dienste, der Tausende von Websites betraf, darunter Twitter (Speicher) und 37 Signale. Laut Amazon war dies auf Probleme mit der Scability zurückzuführen (siehe Link ):

Hier sind einige zusätzliche Details zu dem Problem, das wir heute früher hatten. Am frühen Morgen, um 3:30 Uhr PST, stellten wir fest, dass an einem unserer Standorte mehr authentifizierte Anfragen von mehreren Benutzern vorliegen. Während wir unser gesamtes Anforderungsvolumen sorgfältig überwachen und diese innerhalb des normalen Bereichs blieben, hatten wir den Anteil authentifizierter Anforderungen nicht überwacht. Wichtig ist, dass diese kryptografischen Anforderungen pro Anruf mehr Ressourcen verbrauchen als andere Anforderungstypen.

Kurz vor 4:00 Uhr PST stellten wir fest, dass mehrere andere Benutzer ihr Volumen an authentifizierten Anrufen erheblich erhöhten. Letzteres hat den Authentifizierungsdienst über seine maximale Kapazität hinausgeschoben, bevor wir die Einrichtung neuer Kapazitäten abschließen konnten. Zusätzlich zur Verarbeitung authentifizierter Anforderungen führt der Authentifizierungsdienst auch eine Kontoüberprüfung für jede Anforderung durch, die Amazon S3 verarbeitet. Dies führte dazu, dass Amazon S3 ab 4:31 Uhr PST keine Anforderungen an diesem Speicherort verarbeiten konnte. Um 6:48 Uhr PST hatten wir genügend Kapazität online gestellt, um das Problem zu beheben.

Wie wir heute bereits sagten, sind Ausfallzeiten inakzeptabel, obwohl wir stolz auf unsere Erfolgsgeschichte in den letzten zwei Jahren mit diesem Service sind. Im Rahmen der Obduktion für diese Veranstaltung haben wir eine Reihe von kurzfristigen Maßnahmen sowie längerfristige Verbesserungen ermittelt. Wir ergreifen sofort Maßnahmen in Bezug auf Folgendes: (a) Verbesserung unserer Überwachung des Anteils authentifizierter Anfragen; (b) weitere Erhöhung unserer Authentifizierungsdienstkapazität; und (c) Hinzufügen zusätzlicher Abwehrmaßnahmen um die authentifizierten Anrufe. Darüber hinaus haben wir mit der Arbeit an einem Service Health Dashboard begonnen und werden es voraussichtlich in Kürze veröffentlichen.

Mit freundlichen Grüßen Das Amazon Web Services Team


Es war interessant, wie sich dies auf viele Web2.0-Sites wie Twitter
auswirkte

2

Ein Ausfall, der Microsoft-, Google-, Yahoo-, Apple- und Antiviren-Update-Dienste von Symantec und TrendMicro betraf, muss ein erheblicher Ausfall sein.

Akamai berichtete später, dass der Ausfall auf einen DOS-Angriff eines Bot-Netzes von zombifizierten Heim-PCs zurückzuführen sei.


2

Wie wäre es mit dem Datenverlust von TMobile Sidekick vor einigen Wochen?


1

Ich würde sagen, als McHost im November letzten Jahres geschlossen wurde und die Menge an Spam, die von einigen Berichten gesendet wurde, drastisch zwischen 50 und 75% reduziert hat.


1

Was ist, wenn a2b2.com, fsck, cheapvps, vaserv usw. vor einigen Monaten tagelang und tagelang und tagelang ausfielen?


1

Dies geht zurück, aber der MS-Ausfall im Jahr 2001 war ziemlich glamourös. MS hatte ihre DNS-Server in einem Subnetz eingerichtet, und als ein Router einen Tauchgang unternahm, taten dies so ziemlich alle ihre Sachen ...





0

Ein weiterer Twitter-Vorfall, über den hier berichtet wurde, war, als Steve Jobs und die MAc-Welt sich während einer Rede von Steve Jobs darauf verlassen hatten und er am 15. Januar 2008 der Last erlag.

Die meisten Augen in der Technologiewelt sind derzeit auf die Keynote von Steve Jobs bei Macworld gerichtet (detaillierte Live-Updates hier für Apple-Fans). Für diejenigen von uns, die nicht anwesend sind, war Twitter vermutlich eine gute Möglichkeit, um herauszufinden, was los ist, und jede Wendung mit unserer Community zu diskutieren. Leider ist Twitter erneut unter einem offiziellen Anstieg des Datenverkehrs von Macworld abgestürzt und war in der letzten Stunde weitgehend unzugänglich.


0

Am 21. April 2009 fielen zwei von drei Home Location Register- Servern im Netzwerk von T-Mobile Germany aus.

Infolgedessen funktionierte das gesamte Mobilfunknetz von T-Mobile mehrere Stunden lang nicht. Die Fehler begannen gegen 16 Uhr und wurden erst gegen 21 bis 22 Uhr behoben. Der Ausfall betraf die meisten (möglicherweise fast alle) der 40 Millionen Abonnenten von T-Mobile, die keine Anrufe empfangen konnten (einige konnten noch ausgehende Anrufe tätigen).

Fast so peinlich wie der Ausfall war die von T-Mobile angebotene Entschädigung: Abonnenten konnten einen Tag (einen Sonntag) kostenlos SMS (normalerweise 0,19 Euro pro SMS) senden. Besonders Geschäftskunden schätzten die Geste, die nachdenklich auf einen arbeitsfreien Tag beschränkt war ...

Details: http://www.teltarif.de/t-mobile-netzstoerung-hlr/news/33936.html

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.