Ich bin ein Doktorand der Geophysik und arbeite mit großen Mengen von Bilddaten (Hunderte von GB, Zehntausende von Dateien). Ich kenne svn
und git
verstehe mich ziemlich gut mit einer Projekthistorie, kombiniert mit der Fähigkeit, einfach zusammenzuarbeiten und Schutz vor Festplattenbeschädigung zu haben. Ich finde es git
auch sehr hilfreich, konsistente Backups zu haben, aber ich weiß, dass git große Mengen von Binärdaten nicht effizient verarbeiten kann.
Während meines Masterstudiums arbeitete ich an Datensätzen ähnlicher Größe (auch Images) und hatte viele Probleme, die verschiedenen Versionen auf verschiedenen Servern / Geräten zu verfolgen. Das Vergleichen von 100 GB über das Netzwerk macht wirklich keinen Spaß und kostet mich viel Zeit und Mühe.
Ich weiß, dass andere in der Wissenschaft ähnliche Probleme zu haben scheinen, aber ich konnte keine gute Lösung finden.
Ich möchte die Lagerräume meines Instituts nutzen, also brauche ich etwas, das einen "dummen" Server benutzen kann. Ich hätte auch gerne ein zusätzliches Backup auf einer tragbaren Festplatte, weil ich es vermeiden möchte, Hunderte von GB über das Netzwerk zu übertragen, wo immer dies möglich ist. Ich benötige also ein Tool, das mehr als einen entfernten Standort verwalten kann.
Schließlich brauche ich wirklich etwas, das andere Forscher verwenden können, es muss also nicht sehr einfach sein, sondern sollte in wenigen Stunden erlernbar sein.
Ich habe viele verschiedene Lösungen evaluiert, aber keine scheint in die Rechnung zu passen:
- svn ist etwas ineffizient und benötigt einen intelligenten server
- hg bigfile / largefile kann nur eine Fernbedienung verwenden
- git bigfile / media kann auch nur eine fernbedienung verwenden, ist aber auch nicht sehr effizient
- Dachboden scheint kein Protokoll oder unterschiedliche Fähigkeiten zu haben
- bup sieht wirklich gut aus, benötigt aber einen "intelligenten" Server, um zu funktionieren
Ich habe versucht git-annex
, das alles zu tun, was ich brauche (und vieles mehr), aber es ist sehr schwierig zu bedienen und nicht gut dokumentiert. Ich habe es mehrere Tage lang benutzt und konnte mich nicht darum kümmern, daher bezweifle ich, dass ein anderer Mitarbeiter daran interessiert wäre.
Wie gehen Forscher mit großen Datenmengen um und was verwenden andere Forschungsgruppen?
Natürlich interessiert mich in erster Linie, wie andere Forscher mit dieser Situation umgehen, nicht nur dieser spezifische Datensatz. Es scheint mir, dass fast jeder dieses Problem haben sollte, aber ich kenne niemanden, der es gelöst hat. Sollte ich nur eine Sicherungskopie der Originaldaten aufbewahren und all diese Versionskontrollsachen vergessen? Tun das alle anderen?