Wie kann ich eine CSV-Datei in pyspark-Datenrahmen importieren? Ich habe sogar versucht, eine CSV-Datei in Pandas zu lesen und sie dann mit createDataFrame in einen Spark-Datenrahmen zu konvertieren, aber es wird immer noch ein Fehler angezeigt. Kann mich jemand durch das führen? Bitte sagen Sie mir auch, wie ich eine XLSX-Datei importieren kann. Ich versuche, CSV-Inhalte in Pandas-Datenrahmen zu importieren und sie dann in Spark-Datenrahmen zu konvertieren, aber es wird der Fehler angezeigt:
"Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
Mein Code lautet:
from pyspark import SparkContext
from pyspark.sql import SQLContext
import pandas as pd
sqlc=SQLContext(sc)
df=pd.read_csv(r'D:\BestBuy\train.csv')
sdf=sqlc.createDataFrame(df)