Wie kann man einen Parkett-Datensatz von bescheidener Größe in einen speicherinternen Pandas DataFrame lesen, ohne eine Cluster-Computing-Infrastruktur wie Hadoop oder Spark einzurichten? Dies ist nur eine mäßige Datenmenge, die ich mit einem einfachen Python-Skript auf einem Laptop im Speicher lesen möchte. Die Daten befinden sich nicht in HDFS. Es befindet sich entweder im lokalen Dateisystem oder möglicherweise in S3. Ich möchte keine anderen Dienste wie Hadoop, Hive oder Spark starten und konfigurieren.
Ich dachte, Blaze / Odo hätte dies möglich gemacht: In der Odo-Dokumentation wird Parkett erwähnt, aber die Beispiele scheinen alle eine externe Hive-Laufzeit zu durchlaufen.