Welche Dokumente zum Umgang mit Fehlern in verteilten Systemen empfehlen Sie?
Welche Dokumente zum Umgang mit Fehlern in verteilten Systemen empfehlen Sie?
Antworten:
Vielleicht möchten Sie einen Blick auf die Werke werfen, die 2010 Tushar D. Chandra, Vassos Hadzilacos und Sam Toueg mit dem Edsger W. Dijkstra-Preis ausgezeichnet haben :
Diese Artikel führen den Begriff der Fehlerdetektoren in einem verteilten System in einem allgemeinen und präzisen Rahmen ein. Intuitiv versuchten sie, die minimale Menge an Fehlerinformationen zu untersuchen, die zur Lösung des Konsenses erforderlich sind. Es stellt sich heraus, dass Sie keinen perfekten Fehlerdetektor benötigen, um den Konsens zu lösen. Selbst unzuverlässige Fehlerdetektoren, die bestimmte Mindestbedingungen erfüllen, reichen für die Aufgabe aus. Diese Artikel waren sehr einflussreich für den Umgang mit Fehlern in verteilten Systemen.
Welche Art von Fehlern im System? Suchen Sie nach Lösungen für die Behandlung byzantinischer Fehler oder nur nach dem klassischen Fail-Stop-Modell? Lösungen bei Vorhandensein byzantinischer Knoten in einem verteilten System sind das interessantere Problem. Das Problem wurde von Leslie Lamport formalisiert (das Problem der byzantinischen Generäle), und das Papier von Barbara Liskov und Miguel Castro aus dem Jahr 1999 stellt die am besten funktionierende praktische Lösung „Praktische byzantinische Fehlertoleranz“ vor. Ursprüngliche formale Modelle zur Behandlung der Fehlertoleranz umfassen die staatlichen Maschinenansatz von Fred Schneider und Replikation mit Ansichtsstempeln Ich stimme zu, dass die Frage sehr allgemein ist, das Feld immens ist und die Theorie die Grundlage für die meisten Systeme bildet, die heute online laufen. Vielleicht würde ein spezifischeres Fehlermodell und die Problemdomäne helfen, dies zu erreichen bessere Antworten
Hier ist eine Sammlung von Mustern für den Umgang mit Fehlern in verteilten Systemen:
Für allgemeinere Arbeiten gibt es alternativ das Buch Einführung in die zuverlässige verteilte Programmierung von Rachid Guerraoui und Luis Rodrigues, das eine breite Palette praktischer Algorithmen enthält, darunter viele Varianten zur Fehlerbehebung. Der klassischere Text Distributed Algorithms von Nancy Lynch deckt aus theoretischer Sicht einen ähnlichen Bereich ab.