Als «pandas» getaggte Fragen

Pandas ist eine Python-Bibliothek zur Datenmanipulation und -analyse, z. B. Datenrahmen, mehrdimensionale Zeitreihen und Querschnittsdatensätze, die häufig in Statistiken, experimentellen wissenschaftlichen Ergebnissen, Ökonometrie oder Finanzen verwendet werden. Pandas ist eine der wichtigsten Data Science-Bibliotheken in Python.


5
Wie verwende ich sklearn fit_transform mit Pandas und gebe Datenrahmen anstelle von numpy array zurück?
Ich möchte die Skalierung (mit StandardScaler () von sklearn.preprocessing) auf einen Pandas-Datenrahmen anwenden. Der folgende Code gibt ein Numpy-Array zurück, sodass ich alle Spaltennamen und Unabhängigkeiten verliere. Das will ich nicht. features = df[["col1", "col2", "col3", "col4"]] autoscaler = StandardScaler() features = autoscaler.fit_transform(features) Eine "Lösung", die ich online gefunden habe, …

3
Verhindern Sie, dass Pandas 'NA' als NaN in einer Zeichenfolge interpretieren
Die Methode pandas read_csv () interpretiert 'NA' als nan (keine Zahl) anstelle einer gültigen Zeichenfolge. Im folgenden einfachen Fall ist zu beachten, dass die Ausgabe in Zeile 1, Spalte 2 (auf Null basierende Zählung) 'nan' anstelle von 'NA' ist. sample.tsv ( tabulatorgetrennt ) PDB-KETTE SP_PRIMARY RES_BEG RES_END PDB_BEG PDB_END SP_BEG …
75 python  pandas 

4
Pandas-Version von rbind
In R können Sie zwei Datenrahmen kombinieren, indem Sie die Spalten des einen mit rbind auf den unteren Rand der Spalten des anderen kleben. Wie erreichen Sie bei Pandas dasselbe? Es scheint bizarr schwierig. Das Verwenden von Anhängen führt zu einem schrecklichen Durcheinander, einschließlich NaNs und Dingen aus Gründen, die …
75 python  r  dataframe  pandas 


4
Wie kann man das Trennzeichen in pandas read_csv flexibler für Leerzeichen für unregelmäßige Trennzeichen machen?
Ich muss einen Datenrahmen erstellen, indem ich Daten aus einer Datei mit der read_csvMethode einlese. Die Trennzeichen sind jedoch nicht sehr regelmäßig: Einige Spalten sind durch Tabulatoren ( \t) getrennt, andere durch Leerzeichen. Darüber hinaus können einige Spalten durch 2 oder 3 oder mehr Leerzeichen oder sogar durch eine Kombination …

5
Pandas DataFrame-Leistung
Pandas ist wirklich großartig, aber ich bin wirklich überrascht, wie ineffizient es ist, Werte von einem Pandas.DataFrame abzurufen. Im folgenden Spielzeugbeispiel ist sogar die DataFrame.iloc-Methode mehr als 100-mal langsamer als ein Wörterbuch. Die Frage: Ist die Lektion hier nur, dass Wörterbücher der bessere Weg sind, um nach Werten zu suchen? …


2
Zählen Sie die Anzahl der Nicht-NaN-Einträge in jeder Spalte des Datenrahmens
Ich habe einen wirklich großen DataFrame und habe mich gefragt, ob es einen kurzen Weg (ein oder zwei Zeilen) gibt, um die Anzahl der Nicht-NaN-Einträge in einem DataFrame zu ermitteln. Ich möchte diese Spalte nicht einzeln ausführen, da ich fast 1000 Spalten habe. df1 = pd.DataFrame([(1,2,None),(None,4,None),(5,None,7),(5,None,None)], columns=['a','b','d'], index = ['A', …


2
Zusammenführen von Datenrahmen im Index mit Pandas
Ich habe zwei Datenrahmen und jeder hat zwei Indexspalten. Ich möchte sie zusammenführen. Der erste Datenrahmen ist beispielsweise der folgende: V1 A 1/1/2012 12 2/1/2012 14 B 1/1/2012 15 2/1/2012 8 C 1/1/2012 17 2/1/2012 9 Der zweite Datenrahmen ist der folgende: V2 A 1/1/2012 15 3/1/2012 21 B 1/1/2012 …

7
Pandas: Ändern Sie den Datentyp der Serie in String
Ich benutze Pandas 'Version 0.12.0' mit Python 2.7 und habe einen Datenrahmen wie folgt: df = pd.DataFrame({'id' : [123,512,'zhub1', 12354.3, 129, 753, 295, 610], 'colour': ['black', 'white','white','white', 'black', 'black', 'white', 'white'], 'shape': ['round', 'triangular', 'triangular','triangular','square', 'triangular','round','triangular'] }, columns= ['id','colour', 'shape']) Die idSerie besteht aus einigen Ganzzahlen und Zeichenfolgen. Es ist …
74 python  pandas  series 


4
Zeigen Sie Zeilen mit einem oder mehreren NaN-Werten im Pandas-Datenrahmen an
Ich habe einen Datenrahmen, in dem einige Zeilen fehlende Werte enthalten. In [31]: df.head() Out[31]: alpha1 alpha2 gamma1 gamma2 chi2min filename M66_MI_NSRh35d32kpoints.dat 0.8016 0.9283 1.000000 0.074804 3.985599e+01 F71_sMI_DMRI51d.dat 0.0000 0.0000 NaN 0.000000 1.000000e+25 F62_sMI_St22d7.dat 1.7210 3.8330 0.237480 0.150000 1.091832e+01 F41_Car_HOC498d.dat 1.1670 2.8090 0.364190 0.300000 7.966335e+00 F78_MI_547d.dat 1.8970 5.4590 0.095319 0.100000 …
74 python  pandas  dataframe  nan 


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.