Als «parquet» getaggte Fragen


1
Was sind die Unterschiede zwischen Feder und Parkett?
Beide sind Spalten- (Platten-) Speicherformate zur Verwendung in Datenanalysesystemen. Beide sind in Apache Arrow ( Pyarrow- Paket für Python) integriert und entsprechen Arrow als säulenförmige In-Memory-Analyseebene. Wie unterscheiden sich beide Formate? Sollten Sie bei der Arbeit mit Pandas nach Möglichkeit immer Federn bevorzugen? Was sind die Anwendungsfälle, in denen Federn …

7
Avro gegen Parkett
Ich plane, eines der Hadoop-Dateiformate für mein Hadoop-Projekt zu verwenden. Ich verstehe, dass Parkett effizient für spaltenbasierte Abfragen und avro für den vollständigen Scan ist oder wenn wir alle Spaltendaten benötigen! Bevor ich fortfahre und eines der Dateiformate auswähle, möchte ich verstehen, welche Vor- und Nachteile eines gegenüber dem anderen …
87 hadoop  avro  parquet 

5
Parkett gegen ORC gegen ORC mit Snappy
Ich führe einige Tests mit den mit Hive verfügbaren Speicherformaten durch und verwende Parkett und ORC als Hauptoptionen. Ich habe ORC einmal mit Standardkomprimierung und einmal mit Snappy aufgenommen. Ich habe viele Dokumente gelesen, in denen angegeben ist, dass Parkett im Vergleich zu ORC eine bessere zeitliche / räumliche Komplexität …
87 hadoop  hive  parquet  snappy  orc 

3
Wie lese ich eine Parkettdatei in Pandas DataFrame?
Wie kann man einen Parkett-Datensatz von bescheidener Größe in einen speicherinternen Pandas DataFrame lesen, ohne eine Cluster-Computing-Infrastruktur wie Hadoop oder Spark einzurichten? Dies ist nur eine mäßige Datenmenge, die ich mit einem einfachen Python-Skript auf einem Laptop im Speicher lesen möchte. Die Daten befinden sich nicht in HDFS. Es befindet …
76 python  pandas  parquet  blaze 
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.