Als «python» getaggte Fragen

Verwendung für datenwissenschaftliche Fragen zur Programmiersprache Python. Nicht für allgemeine Codierungsfragen vorgesehen (-> Stackoverflow).


8
Unterschied zwischen fit und fit_transform in scikit_learn-Modellen?
Ich bin ein Neuling in der Datenwissenschaft und verstehe den Unterschied zwischen fitund fit_transformMethoden beim Scikit-Lernen nicht. Kann jemand einfach erklären, warum wir möglicherweise Daten transformieren müssen? Was bedeutet es, das Modell an die Trainingsdaten anzupassen und in Testdaten umzuwandeln? Bedeutet dies beispielsweise, dass Sie kategoriale Variablen in Zahlen umwandeln …

15
Python vs R für maschinelles Lernen
Ich fange gerade an, eine Anwendung für maschinelles Lernen für akademische Zwecke zu entwickeln. Ich benutze gerade R und trainiere mich darin. An vielen Orten habe ich jedoch Leute gesehen, die Python verwendet haben . Was nutzen die Menschen in Wissenschaft und Industrie und wie lautet die Empfehlung?


1
Unterschied zwischen isna () und isnull () bei Pandas
Ich benutze schon seit einiger Zeit Pandas. Aber ich verstehe nicht, was der Unterschied zwischen isna()und isnull()bei Pandas ist. Und, was noch wichtiger ist, welche, um fehlende Werte im Datenrahmen zu identifizieren. Worin besteht der grundlegende Unterschied, wie ein Wert entweder als naoder erkannt wird null?


8
Open Source-Anomalieerkennung in Python
Problem Hintergrund: Ich arbeite an einem Projekt, das Protokolldateien umfasst, die denen im IT-Überwachungsbereich ähneln (nach meinem besten Verständnis des IT-Bereichs). Diese Protokolldateien sind Zeitreihendaten, die in Hunderten / Tausenden von Zeilen mit verschiedenen Parametern organisiert sind. Jeder Parameter ist numerisch (float) und es gibt einen nicht trivialen / fehlerfreien …

2
Training eines RNN mit Beispielen unterschiedlicher Länge in Keras
Ich versuche, etwas über RNNs zu lernen und verwende Keras. Ich verstehe die Grundvoraussetzung von Vanille-RNN- und LSTM-Schichten, habe jedoch Probleme, einen bestimmten technischen Punkt für das Training zu verstehen. In der Keras-Dokumentation heißt es, dass die Eingabe in eine RNN-Ebene eine Form haben muss (batch_size, timesteps, input_dim). Dies legt …
60 python  keras  rnn  training 

8
Clustering von Geostandortkoordinaten (Lat, lange Paare)
Was ist der richtige Ansatz und Clustering-Algorithmus für das Geolocation-Clustering? Ich verwende den folgenden Code, um Geolocation-Koordinaten zu clustern: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) …

9
Tools und Protokolle für reproduzierbare Datenforschung mit Python
Ich arbeite an einem datenwissenschaftlichen Projekt mit Python. Das Projekt hat mehrere Phasen. Jede Phase umfasst das Aufnehmen eines Datensatzes, das Verwenden von Python-Skripten, Hilfsdaten, Konfigurationen und Parametern sowie das Erstellen eines weiteren Datensatzes. Ich speichere den Code in Git, so dass dieser Teil abgedeckt ist. Ich würde gerne hören …

4
Neuronale Netze: Welche Kostenfunktion soll verwendet werden?
Ich benutze TensorFlow für Experimente hauptsächlich mit neuronalen Netzen. Obwohl ich bereits einige Experimente durchgeführt habe (XOR-Problem, MNIST, einiges an Regression, ...), habe ich Schwierigkeiten, die "richtige" Kostenfunktion für bestimmte Probleme zu wählen, da ich insgesamt als Anfänger gelten könnte. Bevor ich zu TensorFlow kam, habe ich einige vollständig verbundene …

8
ValueError: Eingabe enthält NaN, unendlich oder einen für dtype zu großen Wert ('float32')
Ich habe ValueError erhalten, als ich Testdaten mit einem RandomForest-Modell vorhersagte. Mein Code: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Der Fehler: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Wie finde ich die schlechten Werte im Testdatensatz? …

3
Berechnung und Visualisierung der Korrelationsmatrix mit Pandas
Ich habe einen Pandadatenrahmen mit mehreren Einträgen und möchte die Korrelation zwischen dem Einkommen einer Art von Geschäften berechnen. Es gibt eine Reihe von Geschäften mit Einkommensdaten, Klassifizierung des Tätigkeitsbereichs (Theater, Tuchläden, Lebensmittel ...) und anderen Daten. Ich habe versucht, einen neuen Datenrahmen zu erstellen und eine Spalte mit den …

5
Öffnen einer 20-GB-Datei zur Analyse mit Pandas
Ich versuche gerade, eine Datei mit Pandas und Python für maschinelles Lernen zu öffnen. Es wäre ideal, wenn ich sie alle in einem DataFrame hätte. Jetzt ist die Datei 18 GB groß und mein RAM ist 32 GB, aber ich bekomme immer wieder Speicherfehler. Aus Ihrer Erfahrung ist es möglich? …

3
Multi GPU in Keras
Wie können Sie in der Keras-Bibliothek (oder im Tensorflow) programmieren, um das Training auf mehrere GPUs aufzuteilen? Angenommen, Sie befinden sich in einer Amazon ec2-Instanz mit 8 GPUs und möchten alle verwenden, um schneller zu trainieren. Ihr Code ist jedoch nur für eine einzelne CPU oder GPU bestimmt.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.