Kurze Antwort
Aufgrund der Entropie (auch Tod genannt!) Ist es unmöglich, einen langen Zeitrahmen zu garantieren. Digitale Daten zerfallen und sterben, genau wie alles andere im Universum. Aber es kann verlangsamt werden.
Derzeit gibt es keinen ausfallsicheren und wissenschaftlich erprobten Weg, um eine Archivierung von mehr als 30 Jahren kalter Daten zu gewährleisten. Einige Projekte zielen darauf ab, wie das Rosetta Disks-Projekt des Long Now-Museums , obwohl sie immer noch sehr kostspielig und mit einer geringen Datendichte (ca. 50 MB) sind.
In der Zwischenzeit können Sie wissenschaftlich nachgewiesene belastbare optische Datenträger für die Kühllagerung wie Blu-ray Discs vom Typ HTL von Panasonic oder DVD + Rs von Archivqualität wie Verbatim Gold Archival verwenden und diese in luftdichten Kartons an einem weichen Ort aufbewahren (vermeiden) hohe Temperatur) und aus dem Licht.
Seien Sie auch redundant : Erstellen Sie mehrere Kopien Ihrer Daten (mindestens 4), und berechnen Sie Hashes, um regelmäßig zu überprüfen, ob alles in Ordnung ist. Sie sollten Ihre Daten alle paar Jahre auf neuen Datenträgern neu schreiben. Verwenden Sie außerdem viele Fehlerkorrekturcodes , damit Sie Ihre beschädigten Daten reparieren können!
Lange Antwort
Warum sind Daten mit der Zeit verfälscht? Die Antwort liegt in einem Wort: Entropie . Dies ist eine der primären und unvermeidlichen Kräfte des Universums, die dazu führt, dass Systeme mit der Zeit immer weniger geordnet werden. Datenkorruption ist genau das: eine Störung in der Reihenfolge der Bits. Mit anderen Worten, das Universum hasst Ihre Daten .
Entropie zu bekämpfen ist genau wie den Tod zu bekämpfen: Es ist unwahrscheinlich, dass Sie jemals Erfolg haben werden. Aber Sie können Wege finden, um den Tod zu verlangsamen, genau wie Sie die Entropie verlangsamen können. Sie können Entropie auch durch Reparieren der Verfälschungen austricksen (mit anderen Worten: Sie können die Verfälschungen nicht stoppen, aber Sie können sie reparieren, nachdem Sie zuvor Maßnahmen ergriffen haben!). Genau wie bei allem, was mit Leben und Tod zu tun hat, gibt es weder eine Wunderwaffe noch eine Lösung für alle, und die besten Lösungen erfordern, dass Sie sich direkt an der digitalen Kuratierung Ihrer Daten beteiligen. Und selbst wenn Sie alles richtig machen, ist die Sicherheit Ihrer Daten nicht garantiert, sondern Sie maximieren nur Ihre Chancen.
Nun zu den guten Nachrichten: Wenn Sie qualitativ hochwertige Speichermedien und gute Archivierungs- / Kurationsstrategien kombinieren, gibt es jetzt recht effiziente Möglichkeiten, Ihre Daten zu speichern : Sie sollten auf Fehler ausgelegt sein .
Was sind gute Kurationsstrategien? Lassen Sie uns eines klarstellen: Die meisten Informationen beziehen sich auf Backups, nicht auf die Archivierung. Das Problem ist, dass die meisten Leute ihr Wissen über Backup-Strategien in die Archivierung übertragen werden, und daher sind viele Mythen mittlerweile weit verbreitet. In der Tat sind das Speichern von Daten für einige Jahre (Backup) und das Speichern von Daten für eine möglichst lange Zeitspanne von mindestens Jahrzehnten (Archivierung) völlig unterschiedliche Ziele und erfordern daher unterschiedliche Tools und Strategien.
Zum Glück gibt es eine ganze Reihe von Forschungsergebnissen und wissenschaftlichen Ergebnissen. Ich rate daher, eher auf diese wissenschaftlichen Veröffentlichungen als auf Foren oder Zeitschriften zu verweisen. Hier fasse ich einige meiner Lesungen zusammen.
Seien Sie auch vorsichtig mit Behauptungen und nicht unabhängigen wissenschaftlichen Studien, die behaupten, dass das oder das Speichermedium perfekt ist. Erinnern Sie sich an das berühmte BBC Domesday-Projekt: «Digital Domesday Book dauert 15 Jahre, nicht 1000» . Überprüfen Sie die Studien immer mit wirklich unabhängigen Papieren und gehen Sie bei fehlenden immer davon aus, dass das Speichermedium nicht für die Archivierung geeignet ist.
Lassen Sie uns klären, wonach Sie suchen (anhand Ihrer Frage):
Langzeitarchivierung : Sie möchten Kopien Ihrer vernünftigen, nicht reproduzierbaren "persönlichen" Daten aufbewahren. Archivierung ist grundlegend anders als eine Sicherung , wie auch hier erklärt : Sicherungen sind für dynamische technische Daten , die regelmäßig aktualisiert werden und damit in Sicherungen werden müssen aktualisiert (dh OS, Arbeitsordner Layout usw.), während Archive sind statische Daten , die Sie würden wahrscheinlich nur einmal schreiben und nur von Zeit zu Zeit lesen . Archive sind für intemporäre Daten bestimmt , in der Regel personenbezogen.
Kühlhaus : Sie möchten die Pflege Ihrer archivierten Daten so weit wie möglich vermeiden. Dies ist eine GROSSE Einschränkung, da das Medium Komponenten und eine Schreibmethode verwenden muss, die sehr lange stabil bleiben, ohne dass Sie sie manipulieren müssen und ohne dass eine Verbindung zu einem Computer oder einer Stromversorgung erforderlich ist.
Um unsere Analyse zu vereinfachen, untersuchen wir zunächst Kühllagerlösungen und dann langfristige Archivierungsstrategien.
Kältespeichermedien
Wir haben oben definiert, was ein gutes Kältespeichermedium sein soll: Es sollte Daten für eine lange Zeit ohne Manipulation aufbewahren (deshalb heißt es "kalt": Sie können es einfach in einem Schrank aufbewahren und müssen es nicht einstecken einen Computer zur Datenpflege).
Papier scheint das belastbarste Speichermedium der Welt zu sein, da wir oft sehr alte Manuskripte aus der Antike finden. Papier weist jedoch große Nachteile auf: Erstens ist die Datendichte sehr gering (es kann nicht mehr als ~ 100 KB auf Papier gespeichert werden, selbst bei kleinen Zeichen und Computerwerkzeugen), und sie verschlechtert sich im Laufe der Zeit, ohne dass dies überwacht werden kann: Papier leiden, genau wie Festplatten, unter stiller Korruption. Während Sie stille Verfälschungen digitaler Daten überwachen können, ist dies auf Papier nicht möglich. Sie können beispielsweise nicht garantieren, dass ein Bild über nur ein Jahrzehnt hinweg die gleichen Farben behält: Die Farben werden schlechter, und Sie können nicht feststellen, welche Farben die Originalfarben waren. Natürlich können Sie kuratieren Ihre Bilder, wenn Sie ein Profi in der Bildwiederherstellung sind, dies ist jedoch sehr zeitaufwendig, während Sie mit digitalen Daten diesen Kurations- und Wiederherstellungsprozess automatisieren können.
Festplatten (HDDs) sind bekannt haben eine durchschnittliche Lebensdauer von 3 bis 8 Jahren: sie gerade nicht im Laufe der Zeit verschlechtert, werden sie garantiert schließlich sterben (dh: nicht zugänglich). Die folgenden Kurven zeigen die Tendenz, dass alle Festplatten mit einer erstaunlichen Geschwindigkeit ausfallen:
Badewannenkurve, die die Entwicklung der HDD-Ausfallrate bei gegebenem Fehlertyp zeigt (gilt auch für alle entwickelten Geräte):
Kurve zeigt die Ausfallrate der Festplatte, alle Fehlertypen zusammengeführt:
Quelle: Backblaze
Sie können sehen, dass es drei Arten von Festplatten gibt, die relativ zu ihrem Versagen absterben: die schnell absterbenden (z. B. Herstellungsfehler, Festplatten mit schlechter Qualität, Kopfversagen usw.), die Festplatten mit konstanter Absterberate (gute Herstellung, sie sterben für verschiedene " Dies ist aus "normalen" Gründen bei den meisten Festplatten der Fall, und schließlich bei den robusten, die etwas länger als die meisten Festplatten leben und bald nach den "normalen" aussterben (z. B. glückliche Festplatten, die nicht zu häufig verwendet werden). ideale Umgebungsbedingungen etc ..). Auf diese Weise können Sie sicher sein, dass Ihre Festplatte nicht mehr funktioniert.
Warum sterben Festplatten so oft? Ich meine, die Daten sind auf eine Magnetplatte geschrieben, und das Magnetfeld kann Jahrzehnte andauern, bevor es verschwindet. Der Grund, warum sie sterben, ist, dass das Speichermedium (Magnetplatte) und die Lesehardware (Elektronikplatine + Drehkopf) gekoppelt sind : Sie können nicht getrennt werden, Sie können die Magnetplatte nicht einfach entnehmen und mit einem anderen Kopf lesen, weil zuerst Die elektronische Karte (die die physischen Daten in digitale konvertiert) ist für fast jede Festplatte unterschiedlich (auch wenn sie von derselben Marke und Marke stammt, hängt sie von der ursprünglichen Fabrik ab), und der interne Mechanismus mit dem Drehkopf ist so kompliziert, dass es heutzutage unmöglich ist Damit ein Mensch einen sich drehenden Kopf perfekt auf Magnetplatten platzieren kann, ohne sie zu töten.
Darüber hinaus ist bekannt, dass Festplatten sich im Laufe der Zeit entmagnetisieren, wenn sie nicht verwendet werden (einschließlich SSD). Daher können Sie Daten nicht einfach auf einer Festplatte speichern, sondern in einem Schrank aufbewahren und denken, dass sie Daten ohne elektrische Verbindung enthalten: Sie müssen Ihre Festplatte mindestens einmal pro Jahr oder paar Jahre an eine Stromquelle anschließen . HDDs eignen sich daher eindeutig nicht für die Kühllagerung.
Magnetbänder : Sie werden häufig als Anlaufstelle für Backups und als Erweiterung für die Archivierung bezeichnet. Das Problem bei Magnetbändern besteht darin, dass sie SEHR empfindlich sind: Die Magnetoxidpartikel können durch Sonne, Wasser, Luft, Kratzer, zeitliche Entmagnetisierung oder andere elektromagnetische Geräte leicht beschädigt werden oder einfach mit der Zeit abfallen oder durchgedruckt werden . Deshalb werden sie in der Regel nur von Fachleuten in Rechenzentren eingesetzt. Es ist auch nie bewiesen worden, dass sie Daten länger als ein Jahrzehnt aufbewahren können. Warum werden sie häufig für Backups empfohlen? Weil sie früher billig waren: Damals kostete die Verwendung von Magnetbändern 10- bis 100-mal weniger als Festplatten, und Festplatten waren in der Regel viel weniger stabil als heute. Aus Kostengründen werden Magnetbänder daher vor allem für Backups empfohlenNicht aus Gründen der Ausfallsicherheit, die uns bei der Archivierung von Daten am meisten interessiert.
CompactFlash- und Secure Digital-Karten (SD-Karten) sind als sehr robust und robust bekannt und können katastrophale Bedingungen überstehen .
Die Speicherkarten in den meisten Kameras sind praktisch unzerstörbar, findet Digital Camera Shopper Magazine. Fünf Speicherkartenformate überlebten das Kochen, Zertrampeln, Waschen und Eintauchen in Kaffee oder Cola.
Wie jedes andere magnetbasierte Medium ist es jedoch auf ein elektrisches Feld angewiesen, um die Daten zu speichern. Wenn die Karte keinen Saft mehr enthält, können die Daten vollständig verloren gehen. Dies ist keine perfekte Lösung für die Kältespeicherung (da Sie gelegentlich alle Daten auf der Karte neu schreiben müssen, um das elektrische Feld aufzufrischen), kann aber ein gutes Medium für Backups und für die kurz- oder mittelfristige Archivierung sein.
Optische Medien: Optische Medien sind eine Klasse von Speichermedien, die sich zum Lesen der Daten auf einen Laser stützen, z. B. CD, DVD oder Blu-ray (BD). Dies kann als eine Entwicklung des Papiers angesehen werden, aber wir schreiben die Daten in einer so kleinen Größe, dass wir ein präziseres und belastbareres Material als Papier benötigten, und optische Datenträger sind genau das. Die beiden größten Vorteile von optischen Medien sind, dass das Speichermedium von der Lesehardware entkoppelt ist (dh, wenn Ihr DVD-Leser ausfällt, können Sie immer ein anderes kaufen, um Ihre Festplatte zu lesen) und dass es auf Laser basiert, was es universell und macht Zukunftssicher (dh, solange Sie wissen, wie man einen Laser herstellt, können Sie ihn jederzeit optimieren, um die Bits einer optischen Platte durch Emulation zu lesen, so wie es CAMILEON für das Domesday BBC-Projekt getan hat ).
Wie jede Technologie bieten neue Iterationen nicht nur eine größere Dichte (Speicherplatz), sondern auch eine bessere Fehlerkorrektur und eine bessere Widerstandsfähigkeit gegen Umweltverfall (nicht immer, aber im Allgemeinen wahr). Die erste Debatte über DVD-Zuverlässigkeit fand zwischen DVD-R und DVD + R statt. Auch wenn DVD-R heutzutage immer noch üblich ist, gilt DVD + R als zuverlässiger und präziser . Es gibt jetzt DVDs in Archivqualität, die speziell für die Kühllagerung entwickelt wurden und behaupten, dass sie mindestens ~ 20 Jahre ohne Wartung aushalten:
Die Verbatim Gold Archival DVD-R [...] wurde vom angesehenen deutschen c't-Magazin (c't 16/2008, S. 116-123) in einem gründlichen Langzeit-Stresstest als zuverlässigste DVD-R eingestuft ) [...] eine Mindesthaltbarkeit von 18 Jahren und eine durchschnittliche Haltbarkeit von 32 bis 127 Jahren (bei 25 ° C, 50% Luftfeuchtigkeit). Keine andere Disc erreichte diese Werte, die zweitbeste DVD-R hatte eine Mindesthaltbarkeit von nur 5 Jahren.
Von LinuxTech.net .
Darüber hinaus spezialisierten einige Unternehmen in sehr langfristiger DVD Archivierung und ausgiebig vermarkten, wie die M-Disc von Millenniata oder DataTresorDisc und behaupten , dass sie Daten für mehr als 1000 Jahre zurückhalten können, und durch überprüften einige (unselbständige) Studien (aus 2009) unter weniger wissenschaftlichen anderen .
Das alles scheint sehr vielversprechend! Leider gibt es nicht genügend unabhängige wissenschaftliche Studien, um diese Behauptungen zu bestätigen, und die wenigen verfügbaren sind nicht so begeistert:
Feuchtigkeit (80% relative Luftfeuchtigkeit) und Temperatur (80 ° C) beschleunigten die Alterung auf mehreren DVDs über einen Zeitraum von 2000 Stunden (ca. 83 Tage) mit regelmäßiger Überprüfung der Lesbarkeit der Daten:
Übersetzt von der französischen Institution für digitale Datenarchivierung (Archives de France), Studie von 2012.
Die erste Grafik zeigt eine DVD mit einer langsamen Degradationsentwicklung. Die zweite DVD mit schnellen Degradationskurven. Und die dritte ist für spezielle "sehr langfristige" DVDs wie M-Disc und DataTresorDisc gedacht. Wie wir sehen können, entspricht ihre Leistung nicht ganz den Ansprüchen, da sie niedriger oder gleichwertig mit Standard-DVDs ohne Archivierungsgrad ist!
Anorganische optische Disks wie M-Disc und DataTresorDisc haben jedoch einen Vorteil: Sie sind gegenüber Lichtverschlechterung völlig unempfindlich:
Beschleunigtes Altern mit Licht (750 W / m²) während 240 Stunden:
Das sind großartige Ergebnisse, aber eine DVD in Archivqualität wie die Verbatim Gold Archival erzielt auch die gleiche Leistung, und außerdem ist Licht der am besten kontrollierbare Parameter für ein Objekt: Es ist ziemlich einfach, eine DVD in eine geschlossene Schachtel oder einen geschlossenen Schrank zu legen Entfernen jeglicher möglicher Lichteinwirkungen. Es wäre viel nützlicher, eine DVD zu bekommen, die sehr temperatur- und feuchtigkeitsbeständig ist als Licht.
Das gleiche Forschungsteam untersuchte auch den Blu-ray-Markt, um herauszufinden, ob es eine Marke mit einem guten Medium für die Langzeitkühllagerung gibt. Hier ist ihr Ergebnis:
Feuchtigkeit und Temperatur beschleunigten die Alterung bei mehreren Blu-ray-Marken unter denselben Parametern wie bei DVDs:
Lichtbeschleunigtes Altern bei mehreren Blu-ray-Marken mit denselben Parametern:
Übersetzt aus dieser Studie des Archives de France, 2012.
Zwei Zusammenfassungen aller Befunde (in französischer Sprache) hier und hier .
Insgesamt hat die beste Blu-ray-Disc (von Panasonic) eine ähnliche Leistung wie die beste DVD mit Archivierungsqualität im Feuchtigkeits- und Temperaturtest erbracht und ist praktisch lichtunempfindlich! Und diese Blu-ray-Disc ist nicht einmal für Archivzwecke geeignet. Darüber hinaus verwenden Blu-ray-Discs einen verbesserten Fehlerkorrekturcode als DVDs (die selbst eine gegenüber CDs verbesserte Version verwenden), wodurch das Risiko eines Datenverlusts weiter minimiert wird. Daher scheinen einige Blu-ray-Discs eine sehr gute Wahl für die Kühllagerung zu sein.
In der Tat beginnen einige Unternehmen mit der Arbeit an Blu-ray-Discs mit hoher Speicherdichte in Archivqualität wie Panasonic und Sony und kündigen an, 300 GB bis 1 TB Speicher mit einer durchschnittlichen Lebensdauer von 50 Jahren anbieten zu können. Auch große Unternehmen wenden sich optischen Medien für die Kühllagerung zu (da diese viel weniger Ressourcen verbrauchen, da sie ohne Stromversorgung kühl gelagert werden können), wie Facebook, das ein Robotersystem für die Verwendung von Blu-ray-Discs als "kalt" entwickelt hat Datenspeicher " greift ihr System selten zu.
Long Now-Archivierungsinitiative: Es gibt andere interessante Hinweise, wie das Rosetta Disc-Projekt des Long Now-Museums , bei dem mikroskopisch skalierte Seiten der Genesis in allen Sprachen der Erde geschrieben werden, in die die Genesis übersetzt wurde. Dies ist ein großartiges Projekt, das als erstes ein Medium anbietet, das die Speicherung von 50 MB für einen wirklich sehr langfristigen Kältespeicher (da es in Carbon geschrieben ist) und einen zukunftssicheren Zugriff ermöglicht, da Sie nur eine Lupe benötigen, um auf das zuzugreifen Daten (keine komischen Formatangaben oder technologischen Probleme, wie der violette Strahl der Blu-ray, brauchen nur eine Lupe!). Diese werden jedoch immer noch manuell erstellt und kosten schätzungsweise 20.000 US-Dollar, was für ein persönliches Archivierungsschema wohl etwas zu viel ist.
Internetbasierte Lösungen: Ein weiteres Medium zum Speichern Ihrer Daten ist das Internet. Cloud-Backup-Lösungen eignen sich jedoch nicht für das Hauptanliegen, da die Cloud-Hosting-Unternehmen möglicherweise nicht so lange leben, wie Sie Ihre Daten behalten möchten. Andere Gründe sind die Tatsache, dass das Backup schrecklich langsam ist (da es über das Internet übertragen wird) und die meisten Anbieter verlangen, dass die Dateien auch auf Ihrem System vorhanden sind, um sie online zu halten. Zum Beispiel löschen sowohl CrashPlan als auch Backblaze dauerhaft Dateien, die in den letzten 30 Tagen nicht mindestens einmal auf Ihrem Computer angezeigt wurden. Wenn Sie also Sicherungsdaten hochladen möchten, die Sie nur auf externen Festplatten speichern, müssen Sie diese anschließen USB-Festplatte mindestens einmal im Monat und Synchronisierung mit Ihrer Cloud, um den Countdown zurückzusetzen. Jedoch, Einige Cloud-Dienste wie SpiderOak bieten die Möglichkeit, Ihre Dateien unbegrenzt aufzubewahren (solange Sie natürlich bezahlen), ohne dass ein Countdown erforderlich ist. Seien Sie also sehr vorsichtig mit den Bedingungen und der Verwendung der Cloud-basierten Sicherungslösung, die Sie auswählen.
Eine Alternative zu Cloud-Backup-Anbietern besteht darin, Ihren eigenen privaten Server online zu mieten und wenn möglich einen mit automatischer Spiegelung / Sicherung Ihrer Daten bei einem Hardwareausfall auszuwählen (einige wenige garantieren Ihnen sogar gegen Datenverlust in ihren Verträgen , aber natürlich ist es teurer). Dies ist eine großartige Lösung. Erstens, weil Sie noch Eigentümer Ihrer Daten sind und zweitens, weil Sie die Hardwarefehler nicht verwalten müssen. Dies liegt in der Verantwortung Ihres Hosts. Und wenn Ihr Host eines Tages nicht mehr im Geschäft ist, können Sie Ihre Daten trotzdem zurückerhalten (wählen Sie einen seriösen Host, damit dieser nicht über Nacht herunterfährt, sondern Sie vorher benachrichtigt, vielleicht können Sie darum bitten, dass dies in den Vertrag aufgenommen wird). und woanders übernachten.
Wenn Sie sich nicht die Mühe machen möchten, einen eigenen privaten Online-Server einzurichten, und es sich leisten können, bietet Amazon den neuen Datenarchivierungsdienst Glacier an . Der Zweck besteht darin, Ihre Daten langfristig zu kühlen: Daher kostet das Speichern von Daten auf einem Gletscher viel, aber es kostet noch mehr, diese Daten zurückzugewinnen, da dieser Dienst dazu dient, Daten außerhalb der Reichweite zu speichern , um keine Daten zu speichern, auf die Sie häufig zugreifen möchten. Dies bedeutet, dass dieser Service Preise für das Schreiben, aber auch für das Lesen von Daten angibt. Dieser Dienst ist mit enormen Kosten verbunden, kann jedoch für einige Ihrer sensibelsten Daten von Vorteil sein (z. B. wenn Sie einige Textdateien oder Bilder haben, die SEHR sensibel sind, da diese Art von Daten normalerweise klein sind) kostet Sie nicht viel in einem Gletscher zu lagern).
Mängel des Kältespeichers : Es gibt jedoch einen großen Mangel in jedem Kältespeichermedium: Es gibt keine Integritätsprüfung, da Kältespeichermedien die Integrität der Daten NICHT automatisch überprüfen können (sie können lediglich Fehlerkorrekturschemata implementieren, um ein wenig zu "heilen" Der Schaden nach der Beschädigung ist aufgetreten, kann aber nicht verhindert oder automatisch behoben werden!), da im Gegensatz zu einem Computer keine Verarbeitungseinheit vorhanden ist, die das Dateisystem berechnet, protokolliert, überprüft und korrigiert. Während bei einem Computer und mehreren Speichereinheiten die Integrität Ihrer Archive automatisch überprüft und bei Bedarf automatisch auf eine andere Einheit gespiegelt werden kann, wenn ein Datenarchiv beschädigt wurde (vorausgesetzt, Sie haben mehrere Kopien desselben Archivs).
Langzeitarchivierung
Selbst mit den besten derzeit verfügbaren Technologien können digitale Daten nur für einige Jahrzehnte (etwa 20 Jahre) kalt gelagert werden. Auf lange Sicht können Sie sich also nicht nur auf ein Cold Storage verlassen: Sie müssen eine Methode für Ihren Datenarchivierungsprozess einrichten, um sicherzustellen, dass Ihre Daten in Zukunft (auch bei technologischen Änderungen) abgerufen werden können und dass Sie die Risiken minimieren Ihre Daten zu verlieren. Mit anderen Worten, Sie müssen der digitale Kurator Ihrer Daten werden, um Beschädigungen zu reparieren, wenn sie auftreten, und bei Bedarf neue Kopien erstellen.
Es gibt keine narrensicheren Regeln, aber hier sind ein paar etablierte Kuratierungsstrategien und insbesondere ein magisches Werkzeug, das Ihnen die Arbeit erleichtern wird:
- Redundanz- / Replikationsprinzip : Redundanz ist das einzige Werkzeug, das die Auswirkungen der Entropie rückgängig machen kann. Dieses Prinzip basiert auf der Informationstheorie. Um Daten zu speichern, müssen Sie diese Daten duplizieren. Fehlercodes sind genau eine automatische Anwendung des Redundanzprinzips. Allerdings müssen Sie auch sicherstellen , dass Ihre Daten redundant: mehrere Kopien der gleichen Daten auf verschiedenen Datenträgern, mehrere Kopien auf verschiedenen Datenträgern (so dass die Wahrscheinlichkeit gering ist, dass die anderen auf verschiedenen Datenträgern gleichzeitig ausfallen, wenn ein Datenträger aufgrund von Problemen ausfällt) usw. Insbesondere sollten Sie immer mindestens 3 Kopien Ihrer Daten haben, was im Engineering auch als 3-Modul-Redundanz bezeichnet wird, damit Sie bei einer Beschädigung Ihrer Kopien eine einfache Mehrheit abgeben können, um Ihre Dateien von Ihren 3 Kopien zu reparieren. Denken Sie immer an den Kompass des Seemanns:
Es ist sinnlos, zwei Kompasse mitzunehmen, denn wenn einer schief geht, kann man nie wissen, welcher richtig ist oder ob beide falsch sind. Nehmen Sie immer einen Kompass oder mehr als drei.
Fehlerkorrekturcodes : Dies ist das magische Werkzeug, das Ihr Leben einfacher und Ihre Daten sicherer macht. Fehlerkorrekturcodes (Error Correction Codes, ECCs) sind ein mathematisches Konstrukt, das Daten generiert, mit denen Sie Ihre Daten reparieren können. Dies ist effizienter, da ECCs viel mehr Ihrer Daten reparieren können, indem sie viel weniger Speicherplatz beanspruchen als die einfache Replikation (dh das Erstellen mehrerer Kopien Ihrer Dateien). Sie können sogar verwendet werden, um zu überprüfen, ob Ihre Datei vorhanden ist Korruption, und finden Sie sogar , wo diese Korruption sind. In der Tat ist dies genau eine Anwendung des Redundanzprinzips, jedoch auf eine cleverere Weise als die Replikation. Diese Technik wird heutzutage häufig in der Fernkommunikation eingesetzt, beispielsweise bei 4G-, WiMax- und sogar bei der Weltraumkommunikation der NASA. Leider sind ECCs in der Telekommunikation zwar allgegenwärtig, aber nicht in der Dateireparatur, vielleicht weil sie etwas komplex sind. Es gibt jedoch einige Softwareprodukte, z. B. das bekannte (inzwischen veraltete) PAR2, DVD Disaster (mit dem Fehlerkorrekturcodes auf optischen Datenträgern hinzugefügt werden können) und pyFileFixity (das ich zum Teil entwickelt habe, um die Einschränkungen und Probleme von PAR2 zu überwinden). Es gibt auch Dateisysteme, die Reed-Solomon optional implementieren, z. B. ZFS für Linux oder ReFS für Windows, die technisch eine Verallgemeinerung von RAID5 darstellen.
Überprüfen Sie regelmäßig die Integrität Ihrer Dateien: Hash Ihre Dateien, und überprüfen Sie sie von Zeit zu Zeit (dh einmal pro Jahr, aber es hängt vom Speichermedium und den Umgebungsbedingungen ab). Wenn Sie feststellen, dass Ihre Dateien beschädigt wurden, ist es an der Zeit, die von Ihnen erstellten ECCs zu verwenden und / oder eine neue, frische Kopie Ihrer Daten auf einem neuen Speichermedium zu erstellen. Das Überprüfen von Daten, das Reparieren von Beschädigungen und das Erstellen neuer Kopien ist ein sehr guter Kurationszyklus, der die Sicherheit Ihrer Daten gewährleistet. Insbesondere das Überprüfen ist sehr wichtig, da Ihre Dateikopien unbemerkt beschädigt werden können. Wenn Sie dann die manipulierten Kopien kopieren, erhalten Sie vollständig beschädigte Dateien. Dies ist umso wichtiger bei kalten Speichermedien wie optischen Datenträgern, die die Integrität der Daten NICHT automatisch überprüfen KÖNNEN (sie implementieren bereits ECCs, um ein wenig zu heilen). aber sie können nicht automatisch neue Kopien prüfen oder erstellen, das ist Ihre Aufgabe!). Um Änderungen an Dateien zu überwachen, können Sie das Skript rfigc.py von verwendenpyFileFixity oder andere UNIX-Tools wie md5deep . Sie können den Integritätsstatus einiger Speichermedien wie Festplatten auch mit Tools wie Hard Drive Sentinel oder den Open Source- Smartmontools überprüfen .
Bewahren Sie Ihre Archivmedien an verschiedenen Orten auf (mit mindestens einer Kopie außerhalb Ihres Hauses!), Um im wirklichen Leben katastrophale Ereignisse wie Überschwemmungen oder Feuer zu vermeiden. Beispielsweise kann ein optischer Datenträger bei Ihrer Arbeit oder ein Cloud-basiertes Backup eine gute Idee sein, um diese Anforderung zu erfüllen (auch wenn Cloud-Anbieter jederzeit heruntergefahren werden können, solange Sie über andere Kopien verfügen, sind Sie in Sicherheit dienen die Cloud-Anbieter nur im Notfall als Offsite-Archiv).
In speziellen Behältern mit kontrollierten Umgebungsparametern lagern: Bei optischen Medien lichtundurchlässig und wasserdicht aufbewahren, um Feuchtigkeit zu vermeiden. Bewahren Sie Festplatten und SD-Karten in antimagnetischen Schutzhüllen auf, um zu vermeiden, dass das Laufwerk durch Reststrom verfälscht wird. Sie können auch in luft- und wasserdichten Beuteln / Schachteln und in einem Gefrierschrank aufbewahren: Langsame Temperaturen verlangsamen die Entropie und Sie können die Lebensdauer eines solchen Speichermediums erheblich verlängern (stellen Sie nur sicher, dass Wasser gewonnen wird nicht hineingehen, sonst stirbt Ihr Medium schnell).
Verwenden Sie hochwertige Hardware und prüfen Sie diese vorab (z. B.: Wenn Sie eine SD-Karte kaufen, testen Sie die gesamte Karte mit Software wie HDD Scan, um sicherzustellen, dass alles in Ordnung ist, bevor Sie Ihre Daten schreiben). Dies ist besonders wichtig für optische Laufwerke, da ihre Qualität die Qualität Ihrer gebrannten Discs drastisch verändern kann, wie die Studie von Archives de France zeigt (ein schlechter DVD-Brenner wird DVDs produzieren, die eine viel geringere Lebensdauer haben).
Wählen Sie Ihre Dateiformate sorgfältig aus: Nicht alle Dateiformate sind unempfindlich gegen Korruption, einige sind sogar eindeutig schwach. Zum Beispiel können JPG-Bilder völlig beschädigt und unlesbar werden, indem nur ein oder zwei Bytes manipuliert werden. Gleiches gilt für 7zip-Archive. Das ist lächerlich, also seien Sie vorsichtig mit dem Dateiformat der Dateien, die Sie archivieren. Als Faustregel gilt, dass einfacher Klartext am besten ist. Wenn Sie jedoch komprimieren müssen, verwenden Sie eine nicht feste Zip-Datei und für Bilder JPEG2 (noch nicht Open Source ...). Weitere Informationen und Rezensionen zu professionellen digitalen Kuratoren finden Sie hier , hier und hier .
Speichern Sie neben Ihren Datenarchiven alle Software und Spezifikationen, die zum Lesen der Daten erforderlich sind. Beachten Sie, dass sich die Spezifikationen schnell ändern und Ihre Daten in Zukunft möglicherweise nicht mehr lesbar sind, selbst wenn Sie auf die Datei zugreifen können. Daher sollten Sie Open Source-Formate und -Software bevorzugen und den Quellcode des Programms zusammen mit Ihren Daten speichern, damit Sie das Programm immer vom Quellcode aus anpassen können, um es von einem neuen Betriebssystem oder Computer aus zu starten.
Viele andere Methoden und Ansätze zur Verfügung stehen hier , hier und in den verschiedenen Teilen des Internets.
Fazit
Ich empfehle, das zu verwenden, was Sie haben können, aber immer das Redundanzprinzip zu respektieren (4 Kopien anfertigen!) Und regelmäßig die Integrität zu überprüfen (daher müssen Sie vorher eine Datenbank mit MD5 / SHA1-Hashes erstellen) und neue erstellen Kopien im Falle von Korruption. In diesem Fall können Sie Ihre Daten technisch so lange aufbewahren, wie Sie möchten, unabhängig von Ihrem Speichermedium. Die Zeit zwischen den einzelnen Überprüfungen hängt von der Zuverlässigkeit Ihrer Speichermedien ab: Wenn es sich um eine Diskette handelt, überprüfen Sie alle 2 Monate, wenn es sich um eine Blu-ray-HTL handelt, überprüfen Sie alle 2/3 Jahre.
Im Optimum empfehle ich für die Kühllagerung die Verwendung von Blu-ray HTL- Discs oder DVD- Discs in Archivqualität , die in wasserdichten undurchsichtigen Behältern und an einem frischen Ort aufbewahrt werden. Darüber hinaus können Sie SD-Karten und Cloud-basierte Anbieter wie SpiderOak verwenden, um redundante Kopien Ihrer Daten oder sogar Festplatten zu speichern, wenn Sie auf diese zugreifen können.
Verwenden Sie viele Fehlerkorrekturcodes , um Ihren Tag zu retten. Sie können auch mehrere Kopien dieser ECC-Dateien erstellen (mehrere Kopien Ihrer Daten sind jedoch wichtiger als mehrere Kopien von ECCs, da sich ECCs-Dateien selbst reparieren können!).
Diese Strategien können alle mithilfe der Tools implementiert werden, die ich entwickle (Open Source): pyFileFixity . Dieses Tool wurde in der Tat durch diese Diskussion gestartet, nachdem festgestellt wurde, dass es kein kostenloses Tool zum vollständigen Verwalten der Dateifixierung gab. Weitere Informationen zu Dateifixierung und digitaler Kuratierung finden Sie in der Readme-Datei und im Wiki des Projekts.
Abschließend hoffe ich sehr, dass dieses Problem noch weiter erforscht wird. Dies ist ein wichtiges Thema für unsere heutige Gesellschaft, da immer mehr Daten digitalisiert werden, ohne jedoch zu garantieren, dass diese Informationsmenge länger als ein paar Jahre Bestand haben wird. Das ist ziemlich deprimierend, und ich denke wirklich, dass dieses Thema viel mehr in den Vordergrund gerückt werden sollte, damit Konstrukteure und Unternehmen daraus Speichergeräte machen können, die für zukünftige Generationen geeignet sind.
/ EDIT: Lesen Sie unten für eine praktische Kurationsroutine .