Data Science pandas

1

Unterschied zwischen isna () und isnull () bei Pandas

Ich benutze schon seit einiger Zeit Pandas. Aber ich verstehe nicht, was der Unterschied zwischen isna()und isnull()bei Pandas ist. Und, was noch wichtiger ist, welche, um fehlende Werte im Datenrahmen zu identifizieren. Worin besteht der grundlegende Unterschied, wie ein Wert entweder als naoder erkannt wird null?

70 python pandas dataframe

11

Warum bevorzugen die Leute Pandas gegenüber SQL?

Ich benutze SQL seit 1996, daher bin ich möglicherweise voreingenommen. Ich habe MySQL und SQLite 3 ausgiebig verwendet, aber auch Microsoft SQL Server und Oracle. Die überwiegende Mehrheit der Operationen, die ich mit Pandas durchgeführt habe, ist mit SQL einfacher durchzuführen. Dazu gehört das Filtern eines Datasets, das Auswählen bestimmter …

69 pandas sql

8

ValueError: Eingabe enthält NaN, unendlich oder einen für dtype zu großen Wert ('float32')

Ich habe ValueError erhalten, als ich Testdaten mit einem RandomForest-Modell vorhersagte. Mein Code: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Der Fehler: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Wie finde ich die schlechten Werte im Testdatensatz? …

41 python random-forest pandas

3

Berechnung und Visualisierung der Korrelationsmatrix mit Pandas

Ich habe einen Pandadatenrahmen mit mehreren Einträgen und möchte die Korrelation zwischen dem Einkommen einer Art von Geschäften berechnen. Es gibt eine Reihe von Geschäften mit Einkommensdaten, Klassifizierung des Tätigkeitsbereichs (Theater, Tuchläden, Lebensmittel ...) und anderen Daten. Ich habe versucht, einen neuen Datenrahmen zu erstellen und eine Spalte mit den …

35 python statistics visualization pandas

5

Öffnen einer 20-GB-Datei zur Analyse mit Pandas

Ich versuche gerade, eine Datei mit Pandas und Python für maschinelles Lernen zu öffnen. Es wäre ideal, wenn ich sie alle in einem DataFrame hätte. Jetzt ist die Datei 18 GB groß und mein RAM ist 32 GB, aber ich bekomme immer wieder Speicherfehler. Aus Ihrer Erfahrung ist es möglich? …

33 python bigdata pandas anaconda

5

Konvertieren Sie eine Liste von Listen in einen Pandas-Datenrahmen

Ich versuche, eine Liste von Listen, die wie folgt aussieht, in einen Pandas-Datenrahmen zu konvertieren [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', …

30 pandas

1

Warum ist xgboost so viel schneller als sklearn GradientBoostingClassifier?

Ich versuche, ein Steigungsverstärkungsmodell mit über 50.000 Beispielen und 100 numerischen Merkmalen zu trainieren. XGBClassifierBewältigt 500 Bäume innerhalb von 43 Sekunden auf meiner Maschine, während GradientBoostingClassifiernur 10 Bäume (!) in 1 Minute und 2 Sekunden bearbeitet werden :( Ich habe nicht versucht, 500 Bäume zu züchten, da dies Stunden dauern …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

4

Gibt es eine einfache Möglichkeit, pandas.DataFrame.isin parallel auszuführen?

Ich habe ein Modellierungs- und Bewertungsprogramm, das die DataFrame.isinFunktion von Pandas stark nutzt und Listen von Facebook-Like-Einträgen einzelner Benutzer für jede von mehreren tausend spezifischen Seiten durchsucht. Dies ist der zeitaufwändigste Teil des Programms, mehr als das Modellieren oder Bewerten von Stücken, einfach weil es nur auf einem Kern läuft, …

25 performance python pandas parallel

5

Wie vergleiche ich Spalten in verschiedenen Datenrahmen?

Ich möchte eine Spalte eines DF mit anderen DFs vergleichen. Die Spalten sind Namen und Nachnamen. Ich möchte überprüfen, ob sich eine Person in einem Datenrahmen in einem anderen befindet.

23 pandas dataframe

2

Summieren von Werten, die in Pandas nach zwei Spalten gruppiert sind

Ich habe einen Pandas DataFrame wie diesen: df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 Wie kann …

21 python pandas dataframe

3

Gibt es ein Tool zum Aufräumen von Daten für Python / Pandas, das dem Tool R tidyr ähnelt?

Ich arbeite an einer Kaggle-Herausforderung, bei der einige Variablen durch Zeilen anstelle von Spalten dargestellt werden (Telstra Network Disruption). Ich bin derzeit auf der Suche nach dem Äquivalent von gather (), separate () und spread (), die in R Tidyr Tool gefunden werden können.

18 r python dataset data-cleaning pandas

2

Wo im Workflow sollten wir mit fehlenden Daten umgehen?

Ich erstelle einen Workflow zum Erstellen von Modellen für maschinelles Lernen (in meinem Fall mit Python pandasund sklearnPaketen) aus Daten, die aus einer sehr großen Datenbank (hier Vertica über SQL und pyodbc) abgerufen wurden , und ein wichtiger Schritt in diesem Prozess besteht darin, fehlende Daten zu unterstellen Werte der …

16 machine-learning python pandas scikit-learn

5

Vergrößere die seaborn Heatmap

Ich erstelle einen corr()DF aus einem Original-DF. Die corr()df herauskommen 70 X 70 , und es ist unmöglich , die Heatmap sichtbar zu machen ... sns.heatmap(df). Wenn ich versuche, das anzuzeigen corr = df.corr(), passt die Tabelle nicht auf den Bildschirm und ich kann alle Zusammenhänge sehen. Ist es eine …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

8

Wie kann die Anzahl der fehlenden Werte in jeder Zeile im Pandas-Datenrahmen gezählt werden?

Wie kann ich die Anzahl der fehlenden Werte in jeder Zeile im Pandas-Datenrahmen ermitteln? Ich möchte den Datenrahmen in verschiedene Datenrahmen aufteilen, die in jeder Zeile die gleiche Anzahl fehlender Werte aufweisen. Irgendein Vorschlag?

16 python pandas

4

Wie fülle ich fehlende Werte basierend auf anderen Spalten in Pandas Datenrahmen auf?

Angenommen, ich habe einen 5 * 3-Datenrahmen, in dem die dritte Spalte einen fehlenden Wert enthält 1 2 3 4 5 NaN 7 8 9 3 2 NaN 5 6 NaN Ich hoffe, einen Wert für die fehlende wertbasierte Regel in der zweiten Spalte des ersten Produkts zu generieren 1 …

15 pandas

Als «pandas» getaggte Fragen