Als «apache-spark» getaggte Fragen

Apache Spark ist ein Open-Source-Cluster-Computing-System, mit dem Datenanalysen schnell durchgeführt werden sollen - sowohl schnell ausgeführt als auch schnell geschrieben werden können. Es wurde ursprünglich im AMPLab an der UC Berkeley entwickelt.

1
Einzelne E-Mails aus einem E-Mail-Thread extrahieren
Die meisten Open-Source-Datasets sind gut formatiert, dh jede E-Mail-Nachricht ist wie das Enron-E-Mail-Dataset gut getrennt. In der realen Welt ist es jedoch sehr schwierig, eine Top-E-Mail-Nachricht von einem E-Mail-Thread zu trennen. Betrachten Sie zum Beispiel die folgende Meldung. Hi, Can you offer me a better discount. Thanks, Mr.X Customer Relations. …

2
Verstehen, wie verteiltes PCA funktioniert
Im Rahmen eines Big-Data-Analyseprojekts arbeite ich an: Ich muss PCA für einige Daten mithilfe eines Cloud-Computing-Systems durchführen. In meinem Fall verwende ich Amazon EMR für den Job und insbesondere Spark. Abgesehen von der Frage "Wie man PCA-in-Spark durchführt" möchte ich ein Verständnis dafür bekommen, wie die Dinge hinter den Kulissen …

2
SPARK Mllib: Logistische Regression für mehrere Klassen, wie erhält man die Wahrscheinlichkeiten aller Klassen und nicht die oberste?
Ich benutze LogisticRegressionWithLBFGS, um einen Klassifikator für mehrere Klassen zu trainieren. Gibt es eine Möglichkeit, die Wahrscheinlichkeit aller Klassen (nicht nur der Spitzenkandidatenklasse) zu ermitteln, wenn ich das Modell an neuen unsichtbaren Stichproben teste? PS Ich bin nicht unbedingt verpflichtet, den LBFGS-Klassifikator zu verwenden, möchte aber die logistische Regression in …


1
Warum gibt die logistische Regression in Spark und R unterschiedliche Modelle für dieselben Daten zurück?
Ich habe die logistischen Regressionsmodelle für R ( glm) und Spark ( LogisticRegressionWithLBFGS) mit einem Datensatz von 390 obs verglichen . von 14 Variablen. Die Ergebnisse sind im Achsenabschnitt und in den Gewichten völlig unterschiedlich. Wie kann man das erklären? Hier sind die Ergebnisse von Spark (LogisticRegressionWithLBFGS): model.intercept : 1.119830027739959 …

1
Verwenden von Apache Spark für ML. Immer wieder Serialisierungsfehler
Daher verwende ich Spark für die Stimmungsanalyse und erhalte immer wieder Fehler mit den Serialisierern, die (glaube ich) zum Weitergeben von Python-Objekten verwendet werden. PySpark worker failed with exception: Traceback (most recent call last): File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/worker.py", line 77, in main serializer.dump_stream(func(split_index, iterator), outfile) File "/Users/abdul/Desktop/RSI/spark-1.0.1-bin- hadoop1/python/pyspark/serializers.py", line 191, in …
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.