Hier sind sieben Schritte, um spark unter Windows 10 zu installieren und unter Python auszuführen:
Schritt 1: Laden Sie die gz-Datei spark 2.2.0 tar (tape Archive) über diesen Link in einen beliebigen Ordner F herunter - https://spark.apache.org/downloads.html . Entpacken Sie es und kopieren Sie den entpackten Ordner in den gewünschten Ordner A. Benennen Sie den Ordner spark-2.2.0-bin-hadoop2.7 in spark um.
Der Pfad zum Spark-Ordner sei C: \ Users \ Desktop \ A \ spark
Schritt 2: Laden Sie die Datei hardoop 2.7.3 tar gz über diesen Link in denselben Ordner F herunter - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . Entpacken Sie es und kopieren Sie den entpackten Ordner in denselben Ordner A. Benennen Sie den Ordnernamen von Hadoop-2.7.3.tar in hadoop um. Der Pfad zum Hadoop-Ordner sei C: \ Users \ Desktop \ A \ Hadoop
Schritt 3: Erstellen Sie eine neue Editor-Textdatei. Speichern Sie diese leere Editor-Datei als winutils.exe (mit Dateityp: Alle Dateien). Kopieren Sie diese O KB-Datei winutils.exe in Ihren bin-Ordner in spark - C: \ Users \ Desktop \ A \ spark \ bin
Schritt 4: Jetzt müssen wir diese Ordner zur Systemumgebung hinzufügen.
4a: Erstellen einer Systemvariablen (keine Benutzervariable, da die Benutzervariable alle Eigenschaften der Systemvariablen erbt) Variablenname: SPARK_HOME Variablenwert: C: \ Users \ Desktop \ A \ spark
Suchen Sie die Pfadsystemvariable und klicken Sie auf Bearbeiten. Sie sehen mehrere Pfade. Löschen Sie keinen der Pfade. Fügen Sie diesen Variablenwert hinzu -; C: \ Users \ Desktop \ A \ spark \ bin
4b: Erstellen Sie eine Systemvariable
Variablenname: HADOOP_HOME Variablenwert: C: \ Users \ Desktop \ A \ hadoop
Suchen Sie die Pfadsystemvariable und klicken Sie auf Bearbeiten. Fügen Sie diesen Variablenwert hinzu -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: Erstellen einer Systemvariablen Variablenname: JAVA_HOME Durchsuchen Sie Java in Windows. Klicken Sie mit der rechten Maustaste und klicken Sie auf Dateispeicherort öffnen. Sie müssen erneut mit der rechten Maustaste auf eine der Java-Dateien klicken und auf den Speicherort der geöffneten Datei klicken. Sie verwenden den Pfad dieses Ordners. ODER Sie können nach C: \ Programme \ Java suchen. Meine auf dem System installierte Java-Version ist jre1.8.0_131. Variablenwert: C: \ Programme \ Java \ jre1.8.0_131 \ bin
Suchen Sie die Pfadsystemvariable und klicken Sie auf Bearbeiten. Fügen Sie diesen Variablenwert hinzu -; C: \ Programme \ Java \ jre1.8.0_131 \ bin
Schritt 5: Öffnen Sie die Eingabeaufforderung und wechseln Sie in Ihren Spark Bin-Ordner (geben Sie cd C: \ Users \ Desktop \ A \ spark \ bin ein). Typ Funkenschale.
C:\Users\Desktop\A\spark\bin>spark-shell
Es kann einige Zeit dauern und einige Warnungen geben. Schließlich wird es willkommen sein, Version 2.2.0 zu funken
Schritt 6: Geben Sie exit () ein oder starten Sie die Eingabeaufforderung neu und wechseln Sie erneut in den Spark Bin-Ordner. Typ pyspark:
C:\Users\Desktop\A\spark\bin>pyspark
Es werden einige Warnungen und Fehler angezeigt, die jedoch ignoriert werden. Es klappt.
Schritt 7: Ihr Download ist abgeschlossen. Wenn Sie Spark direkt über die Python-Shell ausführen möchten, gehen Sie wie folgt zu Scripts in Ihrem Python-Ordner und geben Sie ein
pip install findspark
in der Eingabeaufforderung.
In Python-Shell
import findspark
findspark.init()
Importieren Sie die erforderlichen Module
from pyspark import SparkContext
from pyspark import SparkConf
Wenn Sie die Schritte zum Importieren und Initialisieren von findspark überspringen möchten, befolgen Sie bitte die
Anweisungen zum Importieren von pyspark in die Python-Shell