Ja, EBS ist im Back-End fehlertolerant, aber EBS-Fehler treten auf unerwartete Weise auf. Was Sie nicht sehen, ist die Art von Fehler, an die die meisten von uns gewöhnt sind - das Laufwerk läuft schlecht und fällt einfach sofort aus. Der häufigste Fehler ist eine enorme und unvorhersehbare Erhöhung der Latenz, die dazu führen kann, dass Ihre Anwendung nicht mehr reagiert. Mit RAID1- oder RAID 10-Sets können Sie das problematische Laufwerk einfach aus dem Array entfernen und es ohne Ausfallzeit durch ein neues ersetzen.
Erinnern Sie sich an ec2pocolypse vor ein paar Monaten, als ein großer Prozentsatz der EBS-Volumes nicht mehr reagierte. Diejenigen von uns, die RAID10-Sets hatten, konnten sich leicht erholen, indem sie ein Laufwerk ausfielen oder erzwangen, es mit der API zu trennen. Diejenigen, die dies nicht taten (ich sehe dich an, reddit), mussten nur knapp eine Woche Ausfallzeit durchstehen.
Wenn Sie sich tatsächlich um Ihre Daten kümmern, sollten Sie sie unter keinen Umständen RAID0. Auf diese Weise erhöhen Sie Ihre Ausfallwahrscheinlichkeit und verringern gleichzeitig Ihre Fähigkeit, sich von diesem Fehler zu erholen. Snapshotting ist großartig, aber wenn Sie Ihre Binärprotokolle nicht (zum Beispiel) streamen, können Sie keine Wiederherstellung zu einem bestimmten Zeitpunkt durchführen. Wenn Sie im E-Commerce tätig sind, sind die Leute verärgert, wenn sie für etwas bezahlen, das nicht versendet wird, weil es keine Aufzeichnungen mehr in der Datenbank gibt.
Ich habe kürzlich über RAID10 EBS geschrieben, nachdem ich einen weiteren Erfolg von EBS RAID erlebt habe: http://blog.9minutesnooze.com/raid-10-ebs-data/
Die Frage ist ... wem vertrauen Sie Ihre Daten mehr an? Amazonas? oder du selbst?