Als «python» getaggte Fragen

Verwendung für datenwissenschaftliche Fragen zur Programmiersprache Python. Nicht für allgemeine Codierungsfragen vorgesehen (-> Stackoverflow).

2
Effiziente Dimensionsreduzierung für große Datenmengen
Ich habe einen Datensatz mit ~ 1M Zeilen und ~ 500K spärlichen Funktionen. Ich möchte die Dimensionalität auf einen Wert in der Größenordnung von 1K-5K-dichten Merkmalen reduzieren. sklearn.decomposition.PCAfunktioniert nicht mit spärlichen Daten, und ich habe versucht, sie zu verwenden sklearn.decomposition.TruncatedSVD, erhalte aber ziemlich schnell einen Speicherfehler. Was sind meine Optionen …

3
Ersetzen Sie alle numerischen Werte in einem Pyspark-Datenrahmen durch einen konstanten Wert
Stellen Sie sich einen Pyspark-Datenrahmen vor, der aus 'Null'-Elementen und numerischen Elementen besteht. Im Allgemeinen haben die numerischen Elemente unterschiedliche Werte. Wie ist es möglich, alle numerischen Werte des Datenrahmens durch einen konstanten numerischen Wert zu ersetzen (zum Beispiel durch den Wert 1)? Danke im Voraus! Beispiel für den pyspark-Datenrahmen: …


4
Gibt es gute Out-of-the-Box-Sprachmodelle für Python?
Ich erstelle Prototypen für eine Anwendung und benötige ein Sprachmodell, um die Ratlosigkeit einiger generierter Sätze zu berechnen. Gibt es ein geschultes Sprachmodell in Python, das ich problemlos verwenden kann? So etwas Einfaches wie model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
Wie kann man mit Keras die zukünftigen Werte des Zeithorizonts vorhersagen?
Ich habe gerade dieses neuronale LSTM-Netzwerk mit Keras aufgebaut import numpy as np import pandas as pd from sklearn import preprocessing from keras.layers.core import Dense, Dropout, Activation from keras.activations import linear from keras.layers.recurrent import LSTM from keras.models import Sequential from matplotlib import pyplot #read and prepare data from datafile data_file_name …

3
Neuronale Netze - Finden Sie die ähnlichsten Bilder
Ich arbeite mit Python, Scikit-Learn und Keras. Ich habe 3000 Tausend Bilder von Frontuhren wie die folgenden: Watch_1 , Watch_2 , Watch_3 . Ich möchte ein Programm schreiben, das als Eingabe ein Foto einer echten Uhr empfängt, das möglicherweise unter weniger idealen Bedingungen als die obigen Fotos (andere Hintergrundfarbe, dunklerer …

1
Trainiere auf Chargen in Tensorflow
Ich versuche derzeit, ein Modell auf einer großen CSV-Datei (> 70 GB mit mehr als 60 Millionen Zeilen) zu trainieren. Dazu verwende ich tf.contrib.learn.read_batch_examples. Ich habe Probleme zu verstehen, wie diese Funktion die Daten tatsächlich liest. Wenn ich eine Stapelgröße von z. B. 50.000 verwende, werden dann die ersten 50.000 …

4
Informationen aus dem Satz extrahieren
Ich erstelle einen einfachen Chatbot. Ich möchte die Informationen aus der Benutzerantwort erhalten. Ein Beispielszenario: Bot : Hi, what is your name? User: My name is Edwin. Ich möchte den Namen Edwin aus dem Satz extrahieren. Der Benutzer kann jedoch auf verschiedene Arten reagieren, z User: Edwin is my name. …
11 python  nlp 




2
So konvertieren Sie kategoriale Daten in Pyspark in numerische Daten
Ich verwende Ipython Notebook, um mit Pyspark-Anwendungen zu arbeiten. Ich habe eine CSV-Datei mit vielen kategorialen Spalten, um festzustellen, ob das Einkommen unter oder über dem Bereich von 50.000 liegt. Ich möchte einen Klassifizierungsalgorithmus durchführen, der alle Eingaben verwendet, um den Einkommensbereich zu bestimmen. Ich muss ein Wörterbuch mit Variablen …

3
Welche Regression muss verwendet werden, um das Wahlergebnis in einem Mehrparteiensystem zu berechnen?
Ich möchte eine Prognose für das Ergebnis der Parlamentswahlen abgeben. Meine Ausgabe ist der Prozentsatz, den jede Partei erhält. Es gibt mehr als zwei Parteien, daher ist eine logistische Regression keine praktikable Option. Ich könnte für jede Partei eine eigene Regression vornehmen, aber in diesem Fall wären die Ergebnisse in …

1
t-SNE Python-Implementierung: Kullback-Leibler-Divergenz
t-SNE reduziert wie in [1] schrittweise die Kullback-Leibler (KL) -Divergenz, bis eine bestimmte Bedingung erfüllt ist. Die Entwickler von t-SNE schlagen vor, die KL-Divergenz als Leistungskriterium für die Visualisierungen zu verwenden: Sie können die von t-SNE gemeldeten Kullback-Leibler-Divergenzen vergleichen. Es ist vollkommen in Ordnung, t-SNE zehnmal auszuführen und die Lösung …

1
scikit-learn n_jobs-Parameter zur CPU-Auslastung und zum Arbeitsspeicher
In den meisten Schätzern für Scikit-Learn gibt es n_jobsin fit/ predictMethoden einen Parameter zum Erstellen paralleler Jobs mit joblib. Ich habe festgestellt, dass durch das Festlegen von -1nur 1 Python-Prozess die Kerne maximal genutzt werden und die CPU-Auslastung 2500% übersteigt. Dies unterscheidet sich erheblich von der Einstellung auf eine positive …

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.