Als «rdd» getaggte Fragen


13
Spark - repartition () vs coalesce ()
Laut Learning Spark Beachten Sie, dass die Neupartitionierung Ihrer Daten ein ziemlich teurer Vorgang ist. Spark hat auch eine optimierte Version von repartition()aufgerufen coalesce(), mit der Datenverschiebungen vermieden werden können, jedoch nur, wenn Sie die Anzahl der RDD-Partitionen verringern. Ein Unterschied, den ich bekomme, ist, dass mit repartition()der Anzahl der …


2
Funkenleistung für Scala vs Python
Ich bevorzuge Python gegenüber Scala. Da Spark nativ in Scala geschrieben ist, hatte ich aus offensichtlichen Gründen erwartet, dass mein Code in der Scala schneller ausgeführt wird als in der Python-Version. Mit dieser Annahme dachte ich, ich würde die Scala-Version eines sehr gängigen Vorverarbeitungscodes für etwa 1 GB Daten lernen …

5
(Warum) müssen wir den Cache aufrufen oder auf einer RDD bestehen bleiben?
Wenn ein ausfallsicheres verteiltes Dataset (RDD) aus einer Textdatei oder -sammlung (oder aus einem anderen RDD) erstellt wird, müssen wir "Cache" oder "Persist" explizit aufrufen, um die RDD-Daten im Speicher zu speichern? Oder werden die RDD-Daten standardmäßig verteilt im Speicher gespeichert? val textFile = sc.textFile("/user/emp.txt") Nach meinem Verständnis ist textFile …
171 scala  apache-spark  rdd 


3
Apache Spark: map vs mapPartitions?
Was ist der Unterschied zwischen einem RDD map und einer mapPartitionsMethode? Und verhält flatMapsich wie mapoder wie mapPartitions? Vielen Dank. (bearbeiten) dh was ist der Unterschied (entweder semantisch oder in Bezug auf die Ausführung) zwischen def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = …


3
Wie funktioniert HashPartitioner?
Ich habe die Dokumentation von gelesen HashPartitioner. Leider wurde außer den API-Aufrufen nicht viel erklärt. Ich gehe davon aus, dass HashPartitionerdie verteilte Menge basierend auf dem Hash der Schlüssel partitioniert wird. Zum Beispiel, wenn meine Daten wie sind (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) Der Partitionierer würde dies also in …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.