Data Science python

2

Effiziente Dimensionsreduzierung für große Datenmengen

Ich habe einen Datensatz mit ~ 1M Zeilen und ~ 500K spärlichen Funktionen. Ich möchte die Dimensionalität auf einen Wert in der Größenordnung von 1K-5K-dichten Merkmalen reduzieren. sklearn.decomposition.PCAfunktioniert nicht mit spärlichen Daten, und ich habe versucht, sie zu verwenden sklearn.decomposition.TruncatedSVD, erhalte aber ziemlich schnell einen Speicherfehler. Was sind meine Optionen …

12 python scikit-learn dimensionality-reduction

3

Ersetzen Sie alle numerischen Werte in einem Pyspark-Datenrahmen durch einen konstanten Wert

Stellen Sie sich einen Pyspark-Datenrahmen vor, der aus 'Null'-Elementen und numerischen Elementen besteht. Im Allgemeinen haben die numerischen Elemente unterschiedliche Werte. Wie ist es möglich, alle numerischen Werte des Datenrahmens durch einen konstanten numerischen Wert zu ersetzen (zum Beispiel durch den Wert 1)? Danke im Voraus! Beispiel für den pyspark-Datenrahmen: …

12 python apache-spark

2

Wann wird Standard Scaler verwendet und wann Normalizer?

Ich verstehe, was Standard Scalar macht und was Normalizer macht, gemäß der Scikit-Dokumentation: Normalizer , Standard Scaler . Ich weiß, wann Standard Scaler angewendet wird. Aber in welchem Szenario wird Normalizer angewendet? Gibt es Szenarien, in denen eines dem anderen vorgezogen wird?

12 python scikit-learn data-cleaning normalization

4

Gibt es gute Out-of-the-Box-Sprachmodelle für Python?

Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

1

Wie kann man mit Keras die zukünftigen Werte des Zeithorizonts vorhersagen?

Ich habe gerade dieses neuronale LSTM-Netzwerk mit Keras aufgebaut import numpy as np import pandas as pd from sklearn import preprocessing from keras.layers.core import Dense, Dropout, Activation from keras.activations import linear from keras.layers.recurrent import LSTM from keras.models import Sequential from matplotlib import pyplot #read and prepare data from datafile data_file_name …

11 machine-learning python keras prediction forecasting

3

Neuronale Netze - Finden Sie die ähnlichsten Bilder

Ich arbeite mit Python, Scikit-Learn und Keras. Ich habe 3000 Tausend Bilder von Frontuhren wie die folgenden: Watch_1 , Watch_2 , Watch_3 . Ich möchte ein Programm schreiben, das als Eingabe ein Foto einer echten Uhr empfängt, das möglicherweise unter weniger idealen Bedingungen als die obigen Fotos (andere Hintergrundfarbe, dunklerer …

11 python neural-network keras

1

Trainiere auf Chargen in Tensorflow

Ich versuche derzeit, ein Modell auf einer großen CSV-Datei (> 70 GB mit mehr als 60 Millionen Zeilen) zu trainieren. Dazu verwende ich tf.contrib.learn.read_batch_examples. Ich habe Probleme zu verstehen, wie diese Funktion die Daten tatsächlich liest. Wenn ich eine Stapelgröße von z. B. 50.000 verwende, werden dann die ersten 50.000 …

11 python tensorflow

4

Informationen aus dem Satz extrahieren

Ich erstelle einen einfachen Chatbot. Ich möchte die Informationen aus der Benutzerantwort erhalten. Ein Beispielszenario: Bot : Hi, what is your name? User: My name is Edwin. Ich möchte den Namen Edwin aus dem Satz extrahieren. Der Benutzer kann jedoch auf verschiedene Arten reagieren, z User: Edwin is my name. …

11 python nlp

1

Neuronales Tensorflow-Netzwerk TypeError: Das Fetch-Argument hat einen ungültigen Typ

Ich erstelle ein einfaches neuronales Netzwerk mit Tensorflow. Die Daten, die ich selbst gesammelt habe, funktionieren jedoch nicht zusammen. PI ist auf einen Fehler gestoßen, den ich nicht beheben oder beheben kann, und ich würde mich über Ihre Hilfe freuen. Die Fehlermeldung: TypeError: Das Abrufargument 2861.6152 von 2861.6152 hat einen …

11 machine-learning python neural-network tensorflow

3

Wie erstelle ich ein interaktives PCA-Streudiagramm in Python?

Die matplotlib- Bibliothek ist sehr leistungsfähig, weist jedoch keine Interaktivität auf, insbesondere in Jupyter Notebook. Ich würde ein gutes wie Offline - Tool wie Plotten plot.ly .

11 python visualization pca jupyter

3

Problem mit IPython / Jupyter unter Spark (nicht erkannter Alias)

Ich arbeite daran, eine Reihe von VMs einzurichten, um mit Spark zu experimentieren, bevor ich Geld für den Aufbau eines Clusters mit Hardware ausgeben kann. Kurzer Hinweis: Ich bin ein Akademiker mit einem Hintergrund im angewandten maschinellen Lernen und arbeite ein bisschen in der Datenwissenschaft. Ich benutze die Tools zum …

11 python apache-spark pyspark ipython

2

So konvertieren Sie kategoriale Daten in Pyspark in numerische Daten

Ich verwende Ipython Notebook, um mit Pyspark-Anwendungen zu arbeiten. Ich habe eine CSV-Datei mit vielen kategorialen Spalten, um festzustellen, ob das Einkommen unter oder über dem Bereich von 50.000 liegt. Ich möchte einen Klassifizierungsalgorithmus durchführen, der alle Eingaben verwendet, um den Einkommensbereich zu bestimmen. Ich muss ein Wörterbuch mit Variablen …

11 python apache-spark categorical-data pyspark

3

Welche Regression muss verwendet werden, um das Wahlergebnis in einem Mehrparteiensystem zu berechnen?

Ich möchte eine Prognose für das Ergebnis der Parlamentswahlen abgeben. Meine Ausgabe ist der Prozentsatz, den jede Partei erhält. Es gibt mehr als zwei Parteien, daher ist eine logistische Regression keine praktikable Option. Ich könnte für jede Partei eine eigene Regression vornehmen, aber in diesem Fall wären die Ergebnisse in …

11 classification r python regression predictive-modeling

1

t-SNE Python-Implementierung: Kullback-Leibler-Divergenz

t-SNE reduziert wie in [1] schrittweise die Kullback-Leibler (KL) -Divergenz, bis eine bestimmte Bedingung erfüllt ist. Die Entwickler von t-SNE schlagen vor, die KL-Divergenz als Leistungskriterium für die Visualisierungen zu verwenden: Sie können die von t-SNE gemeldeten Kullback-Leibler-Divergenzen vergleichen. Es ist vollkommen in Ordnung, t-SNE zehnmal auszuführen und die Lösung …

11 machine-learning python

1

scikit-learn n_jobs-Parameter zur CPU-Auslastung und zum Arbeitsspeicher

In den meisten Schätzern für Scikit-Learn gibt es n_jobsin fit/ predictMethoden einen Parameter zum Erstellen paralleler Jobs mit joblib. Ich habe festgestellt, dass durch das Festlegen von -1nur 1 Python-Prozess die Kerne maximal genutzt werden und die CPU-Auslastung 2500% übersteigt. Dies unterscheidet sich erheblich von der Einstellung auf eine positive …

11 python scikit-learn

Als «python» getaggte Fragen