Suchen Sie nach Optionen für räumliche ETL (Extrahieren, Transformieren, Laden)?


33

Ich interessiere mich für die Vor- und Nachteile verschiedener räumlicher ETL-Tools (Extrahieren, Transformieren, Laden). Wenn Sie die hier aufgelisteten Artikel verwendet haben (oder Ihre eigenen hinzufügen), suche ich Ihre Meinungen und Erfahrungen. Insbesondere möchte ich Usability-Vergleiche von:

Es besteht keine Notwendigkeit, eine Überprüfung aller genannten Software zu geben. Wenn Sie mit nur einer Erfahrung haben, ist dies für die Entscheidung, in welche Richtung Sie gehen sollen, von großem Vorteil.

Beispiel: Ich möchte eine Schemakonvertierungsfunktion erstellen, mit der ich die Eingabeebene auswählen, eine Übersetzung erstellen und in ein neues, vordefiniertes Schema ausgeben kann. Optimalerweise möchte ich nach dem Erstellen des Übersetzungsskripts ein interaktives Formular haben, in dem ich Felder in meiner Eingabeebene der Ausgabeebene "zuordnen" kann (dh - Die Ausgabeebene hat ein Feld namens "Adresse", wie es heißt in der Eingabeebene?)

Einige wurden in den Fragen und Antworten unter Welche Tools stehen zum Hochladen von GIS-Daten in eine Datenbank zur Verfügung?

Und hier sind ein paar verwandte Artikel, die ich gefunden habe.

Antworten:


17

Diese Frage wurde in Community-Wiki konvertiert und durch Wiki gesperrt, da es sich um ein Beispiel für eine Frage handelt, die nach einer Liste von Antworten sucht und so beliebt zu sein scheint, dass sie vor dem Schließen geschützt ist. Dies sollte als Sonderfall behandelt werden und nicht als die Art von Frage angesehen werden, die auf dieser oder einer anderen Stack Exchange-Site empfohlen wird. Wenn Sie jedoch mehr Inhalt dazu beitragen möchten, können Sie dies tun, indem Sie diese Antwort bearbeiten .


Ich werde nur darüber sprechen, was ich in einem beruflichen Kontext gesehen habe. Ein Student von mir arbeitete mit einem Unternehmen zusammen, das die Aufgabe hatte, riesige Mengen von Geodaten aus einer bekannten Quelle (TeleAtlas) zu empfangen, zu validieren und in sein GIS zu integrieren. Sie verwendete mehrere Workflows mit FME und führte sehr komplizierte Überprüfungen und Transformationen von einem Format zum anderen durch, z. B. Auswahl von Features, Topologieüberprüfung, Entfernen von Duplikaten usw. Der Workflow konnte anschließend automatisch eingehende Datensätze verarbeiten.

Ich war in einer Jury für einen Viva-Bewährungsbericht (sorry, google traduction von "soutenance de rapport de stage"), in dem der Student einen anderen FME-Workflow wie diesen beschrieb, aber diesmal um die regionalen Datensätze zu validieren, die zur Integration an die nationale Ebene gesendet wurden zur nationalen Risikodatenbank. Der Hauptunterschied besteht darin, dass in diesem letzten Beispiel das Dataset in sehr unterschiedlichen Dateiformaten, Raster und Vektor, Maßstäben und Stilen vorliegt.

Zuletzt habe ich Spatial Data Integrator getestet, die Open-Source-ETL, die auf Talend Open Studio basiert. Die Funktionen waren zahlreich, jedoch weniger als bei FMEs, aber ich denke, die Hauptunterschiede bestanden in der Dokumentation und der Benutzerfreundlichkeit der Workflow-Erstellung. Ich war oft gezwungen, die Java-Code-Quelle der Workflow-Komponenten zu ändern. Aber es war eine frühere Version von SDI, und die hier beschriebenen Mängel sind bei Open-Source-Projekten am Anfang etwas üblich, und wir können nicht auf der gleichen Ebene proprietäre, gut entwickelte Software und freie Open-Source-Nachwuchs-Kandidaten vergleichen.


24

Für ein kürzlich durchgeführtes Projekt, das mit mehreren GB Geodaten arbeitet, habe ich das Laden / Neuprojektieren von Daten mit FME gestartet. Es hat gut funktioniert, aber es gibt eine Lernkurve.

Am Ende des Projekts verwendete ich Python-Skripte, um die Reamining-Prozesse zu automatisieren. FME kann als Skript geschrieben werden, aber wenn Sie die Python-Grundlagen kennen, warum komplizieren Sie die Dinge dann noch weiter? Python bietet Ihnen vollständige Flexibilität und mit jedem geschriebenen Importskript verbessern sich Ihre Python-Fähigkeiten.

Ich fand die folgenden Python-Pakete bei der Arbeit mit Datenumwandlungen von unschätzbarem Wert:

Wenn Sie einen Entwickler- / Programmierer-Hintergrund haben, würde ich die Verwendung von Python empfehlen. Wenn Sie es vorziehen, mit einer grafischen Benutzeroberfläche zu arbeiten (die auch schöne Bilder für die Dokumentation generiert), würde ich FME empfehlen.


11

Ich liebe Open Source, aber FME gewinnt leicht gegen die Open Source ETLs, so gut ich das beurteilen kann. Es ist eigentlich auch recht günstig für Wartung und Support (zumindest im Vergleich zu den meisten anderen Unternehmenslösungen, die wir für bestimmte Dinge haben).

Wenn Sie nach Übersetzungen zwischen Formaten suchen, kann es sein, dass OGR dies tut (mit einigem Piping in GDAL für Transformationen). Das ist natürlich die Kommandozeile .

Für eine visuelle Modellierung, die über die im Kommentar "Mögliche Duplikate" aufgeführten hinausgeht, wird an einem QGIS / SEXTANTE-Modellgenerator gearbeitet. Proof-of-Concept-Video: https://www.youtube.com/watch?v=LTUu-I2ouqU

(Nein, ich arbeite nicht für Safe, ich bin nur ein relativ zufriedener Kunde).


Die Videoverbindung ist unterbrochen. Kannst du das Reparieren?
GeoStoneMarten


6

Ich habe vor ungefähr einem Jahr verschiedene Tools verglichen , die auch die meisten der in diesem Thread erwähnten Optionen enthalten.

Als direktere Antwort verwende ich FME aufgrund seiner Vielseitigkeit häufig. Wenn ich jedoch mit komplexen Datenstrukturen wie CityGML, INSPIRE GML oder größeren Datenbankmodellen arbeite, verwende ich HALE , eine Open-Source-App, die für ETL und insbesondere für die Harmonisierung entwickelt wurde.

Bildbeschreibung hier eingeben

Gegenwärtig (ab Version 2.9.0) ist der Vergleich mit FME (2014 SP1) wie folgt:

  • HALE hat eine geringere Anzahl von Formaten (HALE: 20, FME 200) und Transformern (HALE: 30+, FME: mehr als 400), unterstützt jedoch alle XML / GML-Dialekte sehr gut
  • HALE zeigt eine interaktive Vorschau der Transformationsergebnisse in einer Karte und in Tabellenansichten an und validiert die Ausgabe direkt
  • HALE ist im Allgemeinen viel schneller, da der lokale Kontext für jedes Attribut beibehalten wird, wodurch Sie beispielsweise viele FeatureMergers sparen
  • HALE ist Open Source und seit 2010 im produktiven Einsatz
  • HALE verwendet eine deklarative Mapping-Benutzeroberfläche, die im Vergleich zu prozeduralen Ansätzen zu einer geringeren Anzahl erforderlicher Benutzereingaben führt

Beachten Sie, dass ich schon einige Jahre im HALE-Team bin.


Wie denkst du stapelt es sich heute gegen FME? Speziell für Web- und GeoRSS-Feeds von Daten?
Dr.YSG

@ Dr.YSG Die Wartung von Hale wurde im Jahr 2015 von der Wetransform GmbH übernommen. Daher steht nun ein engagiertes Team hinter der Entwicklung. In den letzten vier Jahren hat sich eine beachtliche Entwicklung ergeben. Änderungen sind in den GitHub Release Notes dokumentiert. Es unterstützt die Verarbeitung von JSON / GeoJSON-Daten. GeoRSS ist ein einfaches XML-Format, das einige Teile von GML wiederverwendet und daher auch vollständig unterstützt wird. Um GeoRSS-Feeds automatisch zu verarbeiten, sollten Sie sich mit hale-cli (der Befehlszeilenschnittstelle und anderen APIs) befassen.
tr_xsdi

5

Wenn Sie sich den doppelten Link von blah238 ansehen, finden Sie weitere Informationen. Ich würde sagen, dass Talend Open Studio und Pentaho GeoKettle die bekanntesten Open Source-Lösungen sind, für die man sich entscheiden kann. Von diesen beiden Talend-Zielen sind mehr als nur ETL und GeoKettle meiner Meinung nach etwas einfacher zu bedienen.

Meine Gemeinde ist dabei, GeoKettle die Möglichkeit zu geben, einen GML-Dialekt zu schreiben, der vom schwedischen Verband der Gemeinden und Regionen (SALAR) zusammengestellt wurde, und wir benötigen dieses Format, um Geodaten für verschiedene kommerzielle Interessen bereitzustellen.

Ich glaube, GeoKettle unterstützt OGR / GDAL ab Version 2.0.


5

FME ist wahrscheinlich das beste Produkt für diesen Bereich. Danach ist es GDAL / OGR. Ein weiteres Open-Source-Produkt in diesem Bereich ist Geokettle - http://www.spatialytics.org/projects/geokettle/, obwohl ich es noch nie im Zorn verwendet habe (ich habe das Glück, die beiden anderen genannten Produkte zu haben).

Wenn keine dieser allgemeinen Optionen funktioniert, möchten Sie wahrscheinlich ein bestimmtes Konvertierungstool verwenden.


3

Geokettle wurde religiös für ein kleines Projekt verwendet. Hohe Lernkurve, es sei denn, Sie waren an eine Eclipse-Benutzeroberfläche gewöhnt ... Wirklich leistungsstark, da sie gegen GDAL1.10 kompiliert ist und alle Geotypen unterstützt ... Was mir gefiel, war die Unterstützung sowohl gespeicherter Daten als auch Daten über Dienste ... Ich habe es verwendet, um ArcGIS-Server-Datasets auf einer lokalen Postgis-Instanz über ESRI json mit GeoJSON neu zu erstellen und zu synchronisieren. ... Workflow kann Bedingungen und Validierung einbauen, um # of objectid abzufragen und basierend darauf eine vordefinierte CSV zu kompilieren Um eine Post-Anfrage für 500 Features gleichzeitig zu iterieren, abhängig von der ersten Anfrage, war es möglich, alle Anfragen in einer Geojson-Datei zu konsolidieren. Führen Sie ogr2ogr aus, um Postgis zu laden. Sogar geskriptete Postgis, um Vakuum auszuführen und damit zu indizieren ein Ventilator

Sie können es ausführen und einen Workflow auf der Desktop-Benutzeroberfläche zuordnen und Pentahos-Server-Tools verwenden, um es auf Hadoop einzurichten und als Skript- oder Cron-Job ausführen zu lassen.


3

QGIS (mindestens seit der aktuellen Version 2.6) verfügt nun auch über einen integrierten Model Builder. Über diese Toolbox können Sie auf Hunderte von Algorithmen zugreifen (GDAL, GRASS, SAGA, vectortools usw.). Sie können auch ein eigenes Skript hinzufügen.

Ich muss zugeben, dass ich es nicht ausgiebig genutzt habe, aber wenn ich einen Modellbauer suchte, würde ich es für untersuchungswürdig halten.


0

[WARNUNG: Eine kostenlose Werbung für ein Produkt, an dem ich beteiligt bin]

Wir haben an einem Tool für ETL gearbeitet. Es ähnelt der FME-Variante, wurde jedoch für einfachere Aufgaben und weniger Fachwissen entwickelt. Einige Details finden Sie unter https://www.geoactive.it. Hier finden Sie Informationen zu Data Dragon. Diese Anwendung verwendet GDAL / OGR im Back-End und wir übermitteln alle vorgenommenen Ergänzungen an GDAL / OGR.

Für den kommerziellen Gebrauch muss es gekauft werden, aber wir verfügen über kostenlose akademische Lizenzen. Wenn Sie es also für Studienzwecke verwenden möchten, sende mir eine E-Mail und ich werde Ihnen weitere Einzelheiten mitteilen.

Dies ist in der frühen Release-Phase, daher gibt es immer noch einige kleinere Fehler, seien Sie also bitte vorsichtig mit uns.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.