Data Science python

2

Summieren von Werten, die in Pandas nach zwei Spalten gruppiert sind

Ich habe einen Pandas DataFrame wie diesen: df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 Wie kann …

21 python pandas dataframe

3

In PySpark werden mehrere Datenrahmen zeilenweise zusammengeführt

Ich habe 10 Datenrahmen pyspark.sql.dataframe.DataFrame, erhalten aus randomSplitwie (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)jetzt will ich 9 beitreten td‚s in einem einzigen Datenrahmen, wie soll ich das tun? Ich habe es schon …

21 python apache-spark cross-validation pyspark

2

train_test_split () -Fehler: Eingabevariablen mit inkonsistenter Anzahl von Stichproben gefunden

Ziemlich neu in Python, aber ich baue mein erstes RF-Modell basierend auf einigen Klassifizierungsdaten auf. Ich habe alle Bezeichnungen in Int64-numerische Daten konvertiert und als Numpy-Array in X und Y geladen. Beim Versuch, die Modelle zu trainieren, tritt jedoch ein Fehler auf. So sehen meine Arrays aus: >>> X = …

21 python scikit-learn sampling

2

Keras gegen tf.keras

Ich bin etwas verwirrt, wenn ich für mein neues Forschungsprojekt zwischen Keras (keras-team / keras) und tf.keras (tensorflow / tensorflow / python / keras /) wähle. Es gibt eine Debatte, in der Keras niemandem gehört, daher können die Leute gerne dazu beitragen, und es wird in Zukunft viel einfacher sein, …

20 python deep-learning keras tensorflow

3

Unterschied zwischen OrdinalEncoder und LabelEncoder

Nachdem ich ein Buch über ML durchgesehen hatte, ging ich die offizielle Dokumentation von scikit-learn learn durch und stieß auf Folgendes: In der Dokumentation wird darüber berichtet, sklearn.preprocessing.OrdinalEncoder()während es in dem Buch, über das es gegeben wurde sklearn.preprocessing.LabelEncoder(), für mich gleich aussah, als ich ihre Funktionalität überprüfte. Kann mir bitte …

20 machine-learning python scikit-learn preprocessing encoding

3

Python-Implementierung der Kostenfunktion in der logistischen Regression: Warum Punktmultiplikation in einem Ausdruck, aber elementweise Multiplikation in einem anderen?

Ich habe eine sehr grundlegende Frage, die sich auf Python, Numpy und Multiplikation von Matrizen im Rahmen der logistischen Regression bezieht. Lassen Sie mich zunächst entschuldigen, dass ich keine mathematische Notation verwende. Ich bin verwirrt über die Verwendung der Matrixpunktmultiplikation gegenüber der elementweisen Multiplikation. Die Kostenfunktion ist gegeben durch: Und …

18 python logistic-regression cost-function

1

Möglichkeiten, mit Längen- und Breitengrad umzugehen [geschlossen]

Geschlossen . Diese Frage erfordert Details oder Klarheit . Derzeit werden keine Antworten akzeptiert. Möchten Sie diese Frage verbessern? Fügen Sie Details hinzu und klären Sie das Problem, indem Sie diesen Beitrag bearbeiten . Geschlossen vor 3 Jahren . Ich arbeite an einem fiktiven Datensatz mit 25 Funktionen. Zwei der …

18 machine-learning python feature-engineering feature-scaling normalization

3

Gibt es ein Tool zum Aufräumen von Daten für Python / Pandas, das dem Tool R tidyr ähnelt?

Ich arbeite an einer Kaggle-Herausforderung, bei der einige Variablen durch Zeilen anstelle von Spalten dargestellt werden (Telstra Network Disruption). Ich bin derzeit auf der Suche nach dem Äquivalent von gather (), separate () und spread (), die in R Tidyr Tool gefunden werden können.

18 r python dataset data-cleaning pandas

4

Hyperparametersuche nach LSTM-RNN mit Keras (Python)

Vom Keras RNN Tutorial: "RNNs sind knifflig. Die Wahl der Stapelgröße ist wichtig, die Wahl des Verlusts und des Optimierers ist kritisch usw. Einige Konfigurationen konvergieren nicht." Dies ist also eher eine allgemeine Frage zum Optimieren der Hyperparameter eines LSTM-RNN auf Keras. Ich würde gerne wissen, wie Sie die besten …

18 python neural-network deep-learning keras hyperparameter

3

Feature-Extraktion von Bildern in Python

In meiner Klasse muss ich eine Anwendung mit zwei Klassifikatoren erstellen, um zu entscheiden, ob ein Objekt in einem Bild ein Beispiel für Phylum porifera (Seeschwamm) oder ein anderes Objekt ist. Ich bin jedoch völlig verloren, wenn es um Extraktionstechniken in Python geht. Mein Berater hat mich überzeugt, Bilder zu …

18 python feature-extraction image-recognition

4

Verbessern Sie die Geschwindigkeit der Implementierung von t-sne in Python für große Datenmengen

Ich würde gerne eine Dimensionsreduktion für fast 1 Million Vektoren mit jeweils 200 Dimensionen durchführen ( doc2vec). Ich verwende dafür die TSNEImplementierung aus dem sklearn.manifoldModul und das Hauptproblem ist die zeitliche Komplexität. Trotzdem method = barnes_hutist die Rechengeschwindigkeit immer noch gering. Irgendwann geht ihm sogar der Speicher aus. Ich lasse …

18 python bigdata nlp scikit-learn dimensionality-reduction

4

Was ist der Vorteil der Aufteilung der tfrecord-Datei in Shards?

Ich arbeite an der Spracherkennung mit Tensorflow und plane, LSTM NN mit einem Datensatz für massive Wellen zu trainieren. Aufgrund der Leistungssteigerungen plane ich, tfrecords zu verwenden. Im Internet gibt es mehrere Beispiele (z. B. Inception), in denen tfrecords-Dateien in Shards aufgeteilt sind. Meine Frage ist: Was ist der Vorteil …

17 python tensorflow

9

GraphViz funktioniert beim Import in PydotPlus nicht (`Die ausführbaren Dateien von GraphViz wurden nicht gefunden`)

Ich habe schon seit einiger Zeit versucht, diese Pakete zum Laufen zu bringen, aber ohne Erfolg. Grundsätzlich ist der Fehler: GraphViz's Executables not found EDIT : Ich hatte logursprünglich kein Terminal mit dem Fehler gepostet . Ich verwende es Ubuntujetzt, damit ich nicht genau den Fehler reproduzieren kann, den ich …

17 python

2

Wo im Workflow sollten wir mit fehlenden Daten umgehen?

Ich erstelle einen Workflow zum Erstellen von Modellen für maschinelles Lernen (in meinem Fall mit Python pandasund sklearnPaketen) aus Daten, die aus einer sehr großen Datenbank (hier Vertica über SQL und pyodbc) abgerufen wurden , und ein wichtiger Schritt in diesem Prozess besteht darin, fehlende Daten zu unterstellen Werte der …

16 machine-learning python pandas scikit-learn

2

Empfehlen von Filmen mit zusätzlichen Funktionen mithilfe der gemeinsamen Filterung

Ich versuche ein Empfehlungssystem mit kollaborativer Filterung aufzubauen. Ich habe die üblichen [user, movie, rating]Informationen. Ich möchte eine zusätzliche Funktion wie "Sprache" oder "Filmdauer" integrieren. Ich bin nicht sicher, welche Techniken ich für ein solches Problem verwenden könnte. Bitte schlagen Sie Referenzen oder Pakete in Python / R vor.

16 python r recommender-system

Als «python» getaggte Fragen