Ich habe eine Spark-Streaming-Anwendung, die für jede Minute einen Datensatz erstellt. Ich muss die Ergebnisse der verarbeiteten Daten speichern / überschreiben.
Beim Versuch, das Dataset org.apache.hadoop.mapred.FileAlreadyExistsException zu überschreiben, wird die Ausführung gestoppt.
Ich habe die Spark-Eigenschaft festgelegt set("spark.files.overwrite","true")
, aber es gibt kein Glück.
Wie kann ich die Dateien von Spark überschreiben oder vorab löschen?
set("spark.files.overwrite","true")
funktioniert nur für Dateien, die durchspark.addFile()