Als «pyspark-sql» getaggte Fragen

13
Wie ändere ich die Namen von Dataframe-Spalten in pyspark?
Ich komme aus dem Pandas-Hintergrund und bin es gewohnt, Daten aus CSV-Dateien in einen Datenrahmen zu lesen und dann einfach die Spaltennamen mit dem einfachen Befehl in etwas Nützliches zu ändern: df.columns = new_column_name_list Dies funktioniert jedoch nicht in pyspark-Datenrahmen, die mit sqlContext erstellt wurden. Die einzige Lösung, die ich …

9
Zeigen Sie unterschiedliche Spaltenwerte im pyspark-Datenrahmen an: Python
Bitte schlagen Sie eine pyspark-Datenrahmenalternative für Pandas vor df['col'].unique(). Ich möchte alle eindeutigen Werte in einer pyspark-Datenrahmenspalte auflisten. Nicht der SQL-Typ (Registertemplate, dann SQL-Abfrage nach bestimmten Werten). Auch brauche ich nicht groupby->countDistinct, stattdessen möchte ich unterschiedliche WERTE in dieser Spalte überprüfen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.