Wir haben ein Dateisystem verwendet, das hierarchisch gegliedert ist nach: - geografischer Ausdehnung (Land oder Kontinent) - Datenanbieter, Lizenzgeber - Domäne / Datensatz - Datum / Version
Danach haben wir die Richtlinie, die Quelldaten (im gleichen Format wie auf der vom Anbieter bereitgestellten CD / DVD) von allen abgeleiteten Datensätzen zu trennen, die wir in unserem Unternehmen erstellt haben.
Das Dateisystem macht es wirklich einfach, Daten vom Kunden aufzunehmen, und ermöglicht auch eine gewisse Flexibilität hinsichtlich des physischen Speichers. Wir speichern unsere Archive auf größeren, langsameren Festplatten und haben spezielle Dateiserver (transparent in die Hierarchie eingebunden) für die am häufigsten verwendeten Datensätze.
Um die Verwaltung innerhalb von Projekten zu erleichtern, verwenden wir symbolische Links. Wir speichern unsere Vektoren in einer Datenbank (Oracle) und machen es zur Regel, dass mindestens eine Datenbankinstanz pro Kunde (und mehrere Benutzer / Schemata für die Projekte) vorhanden ist. Wir haben jedoch nicht viele Raster in einer Datenbank gespeichert, da sie auch außerhalb einer zu viel Speicherplatz beanspruchen. Außerdem möchten wir unsere Datenbankinstanzen so leicht wie möglich halten.
Und ja, wir haben jemanden, der dafür zuständig ist, das Ganze zu überwachen, damit es nicht zu chaotisch wird.
Das größte Problem bei diesem Setup ist derzeit das Fehlen einer netten Benutzeroberfläche, die uns helfen würde, einen besseren Überblick über das Ganze zu erhalten. Darüber hinaus wollten wir einen Metadatenspeicher einbinden. Wir prüfen hier immer noch unsere Optionen.
Wir verwenden die Versionskontrolle für unseren Code und haben sie für Dokumente verwendet. Es stellt sich jedoch heraus, dass die Versionskontrolle nicht für große Datasets geeignet ist, insbesondere wenn es sich hauptsächlich um Binärdateien handelt. Daher würde ich dies nicht empfehlen , es sei denn, Sie haben es mit GML oder etwas ähnlich Textähnlichem zu tun (zu den Problemen gehören ein hoher Overhead bei der serverseitigen Datenträgerverwendung sowie ein Absturz von Clients beim Auschecken großer Repositorys).