Data Science apache-spark

3

In PySpark werden mehrere Datenrahmen zeilenweise zusammengeführt

Ich habe 10 Datenrahmen pyspark.sql.dataframe.DataFrame, erhalten aus randomSplitwie (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)jetzt will ich 9 beitreten td‚s in einem einzigen Datenrahmen, wie soll ich das tun? Ich habe es schon …

21 python apache-spark cross-validation pyspark

5

Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

So berechnen Sie den Mittelwert einer DataFrame-Spalte und ermitteln die besten 10%

Ich bin sehr neu in Scala und Spark und arbeite an einigen selbst gemachten Übungen, die Baseballstatistiken verwenden. Ich verwende eine Fallklasse, erstelle eine RDD und ordne den Daten ein Schema zu. Anschließend verwandle ich sie in einen DataFrame, damit ich mithilfe von SparkSQL Gruppen von Spielern anhand ihrer Statistiken …

13 apache-spark scala

3

Ersetzen Sie alle numerischen Werte in einem Pyspark-Datenrahmen durch einen konstanten Wert

Stellen Sie sich einen Pyspark-Datenrahmen vor, der aus 'Null'-Elementen und numerischen Elementen besteht. Im Allgemeinen haben die numerischen Elemente unterschiedliche Werte. Wie ist es möglich, alle numerischen Werte des Datenrahmens durch einen konstanten numerischen Wert zu ersetzen (zum Beispiel durch den Wert 1)? Danke im Voraus! Beispiel für den pyspark-Datenrahmen: …

12 python apache-spark

3

Problem mit IPython / Jupyter unter Spark (nicht erkannter Alias)

Ich arbeite daran, eine Reihe von VMs einzurichten, um mit Spark zu experimentieren, bevor ich Geld für den Aufbau eines Clusters mit Hardware ausgeben kann. Kurzer Hinweis: Ich bin ein Akademiker mit einem Hintergrund im angewandten maschinellen Lernen und arbeite ein bisschen in der Datenwissenschaft. Ich benutze die Tools zum …

11 python apache-spark pyspark ipython

2

So konvertieren Sie kategoriale Daten in Pyspark in numerische Daten

Ich verwende Ipython Notebook, um mit Pyspark-Anwendungen zu arbeiten. Ich habe eine CSV-Datei mit vielen kategorialen Spalten, um festzustellen, ob das Einkommen unter oder über dem Bereich von 50.000 liegt. Ich möchte einen Klassifizierungsalgorithmus durchführen, der alle Eingaben verwendet, um den Einkommensbereich zu bestimmen. Ich muss ein Wörterbuch mit Variablen …

11 python apache-spark categorical-data pyspark

1

Spark ALS: Empfehlung für neue Benutzer

Die Frage Wie kann ich die Bewertung für einen neuen Benutzer in einem in Spark geschulten ALS-Modell vorhersagen? (Neu = während der Trainingszeit nicht gesehen) Das Problem Ich folge hier dem offiziellen Spark ALS-Tutorial: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html Ich bin in der Lage, eine gute Empfehlung mit einer anständigen MSE zu erstellen, aber …

10 apache-spark recommender-system pyspark

1

Serverprotokollanalyse mit maschinellem Lernen

Mir wurde diese Aufgabe zugewiesen, um die Serverprotokolle unserer Anwendung zu analysieren, die Ausnahmeprotokolle, Datenbankprotokolle, Ereignisprotokolle usw. enthalten. Ich bin neu im maschinellen Lernen. Wir verwenden Spark mit elastischer Suche und Sparks MLlib (oder PredictionIO). Ein Beispiel für das gewünschte Das Ergebnis wäre, anhand der gesammelten Ausnahmeprotokolle vorhersagen zu können, …

10 machine-learning predictive-modeling apache-spark

1

Funken, der eine einzelne RDD optimal in zwei aufteilt

Ich habe einen großen Datensatz, den ich nach bestimmten Parametern in Gruppen aufteilen muss. Ich möchte, dass der Job so effizient wie möglich bearbeitet wird. Ich kann mir zwei Möglichkeiten vorstellen, dies zu tun Option 1 - Karte aus Original-RDD erstellen und filtern def customMapper(record): if passesSomeTest(record): return (1,record) else: …

10 apache-spark pyspark

3

Beziehung zwischen Faltung in Mathematik und CNN

Ich habe die Erklärung der Faltung gelesen und verstehe sie bis zu einem gewissen Grad. Kann mir jemand helfen zu verstehen, wie diese Operation mit der Faltung in Faltungs-Neuronalen Netzen zusammenhängt? Ist eine filterähnliche Funktion, gdie Gewicht anwendet?

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

3

Wann läuft der Cache für eine RDD in pyspark ab?

Wir verwenden .cache()RDD für das dauerhafte Zwischenspeichern eines Datensatzes. Mein Anliegen ist, wann dieses Zwischenspeichern abgelaufen ist. dt = sc.parallelize([2, 3, 4, 5, 6]) dt.cache()

10 apache-spark pyspark

2

Wann sollte man eine lineare Regression oder eine Entscheidungsbaum- oder eine zufällige Waldregression wählen? [geschlossen]

Geschlossen . Diese Frage muss fokussierter sein . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Aktualisieren Sie die Frage so, dass sie sich nur auf ein Problem konzentriert, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 4 Jahren . Ich arbeite an einem Projekt und habe Schwierigkeiten …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

1

Berechnen Sie die Kosinusähnlichkeit in Apache Spark

Ich habe einen DataFrame mit IDF bestimmter Wörter berechnet. Zum Beispiel (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Geben Sie nun eine Abfrage Q, ich kann die TF-IDF dieser Abfrage berechnen. Wie berechne ich die Kosinusähnlichkeit der Abfrage mit allen Dokumenten im Datenrahmen (es gibt fast eine Million Dokumente)? Ich könnte …

9 machine-learning nlp apache-spark cosine-distance

4

Unausgeglichene Klasse: class_weight für ML-Algorithmen in Spark MLLib

In Python Sklearn gibt es mehrere Algorithmen (z. B. Regression, zufällige Gesamtstruktur usw.), die den Parameter class_weight haben, um unausgeglichene Daten zu verarbeiten. Ich finde jedoch keinen solchen Parameter für die MLLib-Algorithmen. Gibt es einen Plan zur Implementierung von class_weight für einen MLLib-Algorithmus? Oder gibt es in MLLib einen Ansatz …

8 machine-learning apache-spark unbalanced-classes weighted-data

4

So führen Sie eine pyspark-Anwendung in der Windows 8-Eingabeaufforderung aus

Ich habe ein Python-Skript mit Spark Context geschrieben und möchte es ausführen. Ich habe versucht, IPython in Spark zu integrieren, aber das konnte ich nicht. Also habe ich versucht, den Funkenpfad [Installationsordner / bin] als Umgebungsvariable festzulegen und den Befehl spark-submit in der Eingabeaufforderung cmd aufgerufen. Ich glaube, dass es …

8 python apache-spark pyspark ipython

Als «apache-spark» getaggte Fragen