Daten vor Bitfäule schützen


8

Ich habe festgestellt, dass ich alle meine Fotos vor Bit Rot schützen muss (zufällige Dateibeschädigung aufgrund von Fehlern auf der Festplatte oder der Netzwerkübertragung).

Ich habe kürzlich par2 entdeckt, das wie ein großartiges Programm zum Erstellen von Redundanzdateien und zum Erkennen und Reparieren von Dateibeschädigungen erscheint.

Ich denke nicht, dass Journaling-Dateisysteme hier die richtige Lösung sind, da ich möchte, dass der Schutz zusammen mit den Dateien in mein Backup und bei der Migration auf neue Laptops folgt.

Ich denke also, ich brauche ein Skript, das als Cronjob ausgeführt werden kann, vielleicht einmal pro Stunde. Es würde alle Dateien durchsuchen, die geschützt werden müssen, und die Redundanzdateien aktualisieren, wenn Dateien hinzugefügt oder geändert werden (Datei hat einen neueren Zeitstempel als Redundanz-Arhive), und es würde Dateien reparieren, wenn eine Datei beschädigt wurde (Datei wurde geändert, aber bearbeitet) Zeitstempel wurde nicht aktualisiert).

Gibt es ein Skript oder Programm, das dies tun würde? Oder gibt es Programme, die das Problem auf andere Weise lösen? Oder sollte ich einfach selbst ein solches Skript schreiben (ich würde es lieber nicht tun, ich möchte etwas Robustes und von vielen Benutzern getestetes)?


2
Sind Sie sicher, dass zufällige Dateibeschädigung (Bitrot) Ihr Problem ist? Das sollte ein sehr seltener Fall sein (ich habe es noch nicht auf einer meiner Festplatten gesehen). Ironischerweise sind es normalerweise die Software für Bildbetrachter / Bibliotheksverwaltung, die Ihre Bilder verändert, und hier schlägt die Prüfsumme des Dateisystems und andere Redundanzen fehl. Das Speichern eigener Prüfsummenlisten und mehrerer Sicherungen auf schreibgeschützten Dateisystemen / Medien ist nicht die schlechteste Wahl, wenn es um die Aufbewahrung digitaler Daten geht.
Frostschutz

1
@ Frostschutz - Ich denke nicht, dass es so ungewöhnlich ist. Abhängig von der Qualität der von Ihnen verwendeten Spindeln und der E / A-Hardware und -Firmware. Ich habe kürzlich eine ganze Reihe komprimierter VMs auf einem dmraid-Linux-Server getroffen, die vor einem Jahr in Ordnung waren und jetzt nicht mehr dekomprimiert werden. Ich habe verschiedene Dekomprimierungsprogramme mit demselben Ergebnis ausprobiert. IMO einzige Erklärung ist Bitrot. Ich habe leider keine Prüfsummen, um 100% zu validieren, aber es ist sehr verdächtig.
Timothy C. Quinn

@ TimothyC.Quinn HDDs Prüfsumme in jedem Sektor, so dass Sie Lesefehler vor schlechten Daten sehen. Es gibt unzählige Möglichkeiten, Bitrot durch Software zu verursachen. Zum Beispiel erweiterte / logische Dos-Partitionen und dann mit Parted spielen - das macht es schon. Partitionsinformationen werden überall gespeichert, und das Reparieren einer defekten Partitionstabelle macht Schäden nicht rückgängig. Da nur sehr wenige Bytes geändert wurden, kann dies möglicherweise behoben werden. Sie können JPEGs sicherlich mit einem einzigen gespiegelten Bit reparieren, solange es sich um die Originaldatei handelt, die weder konvertiert noch abgeschnitten wurde.
Frostschutz

Antworten:


4

Die kanonische Lösung besteht darin, ein Dateisystem zu verwenden, das Prüfsummen unterstützt, und regelmäßige Sicherungen durchzuführen.

Darüber hinaus können Sie auf Dateisystemebene ein redundantes Speicherschema (RAID) verwenden, um zeitaufwändige Wiederherstellungen aus der Sicherung nach Möglichkeit zu vermeiden.

Beispiele für solche Dateisysteme sind ZFS oder Btrfs .

Die Prüfsummenfunktion solcher Dateisysteme wird unter Verwendung einer kryptografischen Hash-Funktion implementiert. Somit werden Bitfehler stromabwärts des Speicherstapels mit einer sehr hohen Wahrscheinlichkeit erkannt - aufgrund dessen ist ihre Fähigkeit, Verfälschungen zu erkennen, auf dem gleichen Niveau oder höher wie bei Tools wie par2.

Diese Dateisysteme enthalten auch redundante Speicherfunktionen - ähnlich wie bei RAID-Levels. Der Unterschied zu einem klassischen Layering-RAID-Ansatz besteht darin, dass das Dateisystem im Falle einer erkannten Beschädigung das "richtige" Bein auswählen kann, dh die Seite des RAID-Spiegels, die den Block mit der richtigen Prüfsumme zurückgibt.


2

Dies ist eine ältere Frage, die aber 2019 immer noch relevant ist.

Ja, Paritätsdateien sind eine praktikable Lösung für Bit-Rot

Die Paritätsprüfung auf Nicht-Dateisystemebene hat zwar Nachteile, aber auch einen großen Vorteil:

Portabilität.

Die schickste dateisystembasierte Fehlerprüfung der Welt könnte Ihre Daten theoretisch für immer bitrotfrei halten, aber der Schutz ist auf dieses Dateisystem beschränkt. Sobald Dateien verlassen werden, sind sie ungeschützt.

"zu schwer" von Brapps ist unter CC BY-NC 2.0 lizenziert (er sollte wirklich zu ZFS und einem Dach wechseln, bevor er die Daten eingibt )

Bilder mit Paritätsdateien daneben können auf USB-Laufwerke verschoben, über packlossy Verbindungen übertragen, komprimiert, einzeln auf andere Medien gesichert und hundert andere Dinge, die ich mir auf den ersten Blick ausdenken kann.

Sie können auch Änderungen aufgrund fehlerhafter Programme verhindern (z. B. Metadatenanalysatoren, die versehentlich falsche Metadaten schreiben).

PAR2 ist eine praktikable Wahl der Paritätsdatei

Insbesondere PAR2-Dateien können plattformübergreifend verwendet werden, und ihre größten Nachteile sind im Anwendungsfall des Schutzes großer Fotos eigentlich kein Problem (PAR2 unterstützt keine Unterordner und verarbeitet Dateien mit <1 KB nicht effizient).

PAR-Dateien sind jedoch keine vollständige Sicherungslösung für sich

Sie müssen weiterhin Teil einer 3-Kopien-Sicherungsstrategie sein, um "kugelsicher" zu sein, insbesondere da bei PAR-Dateien kein Änderungsverlauf vorliegt: Wenn eine Änderung als gültig erkannt und die Paritätsdateien neu erstellt werden, gibt es kein Zurück, ohne auf a zu verweisen separate Sicherung (eine externe Sicherungslösung mit integriertem Änderungsverlauf wäre hier der Gewinner).

Nächste Schritte

Die Antwort auf die ursprüngliche Frage: "Gibt es ein Skript oder Programm, das [automatisch Paritätsdateien erstellt und verwaltet]?" ist 2019 immer noch Nein, aber ein Skript selbst zu erstellen oder eines erstellen zu lassen ist ziemlich trivial. Wenn Sie diesen Weg gehen, ist der beste Rat, den ich geben kann: Erstellen Sie eine Testumgebung mit jedem denkbaren Randfall und führen Sie jedes Skript durch alle Tests, bevor Sie ihm vertrauen.

Und wenn jemand das Lesen nicht diesen Weg gehen, sollten Sie Open-Sourcing es zum Wohle aller.


1
Ich bin mir nicht sicher, was ich von Ihrer Antwort halten soll: Sie machen einige nicht allzu schlechte Punkte (aber irgendwie komisch), haben irgendwann über das Thema erzählt (Dateisystem, PAR2-Dateien) und endeten mit "Die Antwort ist nein". weil Sie die Check-Summing-Dateisysteme abgelehnt haben? Ganz zu schweigen davon, dass die Übergänge zwischen den verschiedenen Teilen seltsam gemacht sind ... Ich bin mir nicht sicher, wohin Sie damit gehen.
Paradox

@Paradox Gültige Punkte. Nach dem erneuten Lesen am Tag nach der Überarbeitung des Wortlauts, um meine Punkte und Schlussfolgerungen zu klären. Schätzen Sie die Eingabe.
Joshfindit

1
Froh, dass ich helfen konnte. In der Tat ist es jetzt viel lesbarer und klarer und zielt eher auf die Beantwortung der Frage ab. Wenn ich eine Bearbeitung positiv bewerten könnte, würde ich es definitiv tun!
Paradox
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.