Als «dataframe» getaggte Fragen

Ein Datenrahmen ist eine tabellarische Datenstruktur. Normalerweise enthält es Daten, bei denen Zeilen Beobachtungen und Spalten Variablen verschiedener Typen sind. Während "Datenrahmen" oder "Datenrahmen" der Begriff ist, der für dieses Konzept in mehreren Sprachen verwendet wird (R, Apache Spark, deedle, Maple, die Pandas-Bibliothek in Python und die DataFrames-Bibliothek in Julia), ist "Tabelle" der Begriff, der in verwendet wird MATLAB und SQL.


2
Wählen Sie Zeilen in Pandas MultiIndex DataFrame aus
Was sind die häufigsten Pandas-Methoden zum Auswählen / Filtern von Zeilen eines Datenrahmens, dessen Index ein MultiIndex ist ? Schneiden basierend auf einem einzelnen Wert / Etikett Schneiden basierend auf mehreren Etiketten von einer oder mehreren Ebenen Filtern nach booleschen Bedingungen und Ausdrücken Welche Methoden sind unter welchen Umständen anwendbar? …

7
Pandas Datenrahmen fillna () nur einige Spalten vorhanden
Ich versuche, keine Werte in einem Pandas-Datenrahmen mit Nullen für nur eine Teilmenge von Spalten zu füllen. Wenn ich es tue: import pandas as pd df = pd.DataFrame(data={'a':[1,2,3,None],'b':[4,5,None,6],'c':[None,None,7,8]}) print df df.fillna(value=0, inplace=True) print df Die Ausgabe: a b c 0 1.0 4.0 NaN 1 2.0 5.0 NaN 2 3.0 NaN …
144 python  pandas  dataframe 


8
Wie wähle ich die erste Zeile jeder Gruppe aus?
Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Die Ergebnisse sehen aus wie: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| …


14
Bestimmen Sie die Anzahl der NA-Werte in einer Spalte
Ich möchte die Anzahl der NAWerte in einer Datenrahmenspalte zählen. Angenommen, mein Datenrahmen wird aufgerufen df, und der Name der Spalte, die ich in Betracht ziehe, lautet col. Ich habe mir Folgendes ausgedacht: sapply(df$col, function(x) sum(length(which(is.na(x))))) Ist dies ein guter / effizientester Weg, dies zu tun?
142 r  dataframe 

8
Benennen Sie den Pandas DataFrame-Index um
Ich habe eine CSV-Datei ohne Header mit einem DateTime-Index. Ich möchte den Index und den Spaltennamen umbenennen, aber mit df.rename () wird nur der Spaltenname umbenannt. Fehler? Ich bin auf Version 0.12.0 In [2]: df = pd.read_csv(r'D:\Data\DataTimeSeries_csv//seriesSM.csv', header=None, parse_dates=[[0]], index_col=[0] ) In [3]: df.head() Out[3]: 1 0 2002-06-18 0.112000 2002-06-22 …
141 python  pandas  dataframe 


3
Wie speichere ich einen data.frame in R?
Ich habe in R einen data.frame erstellt, der nicht sehr groß ist, dessen Erstellung jedoch einige Zeit in Anspruch nimmt. Ich würde es als Datei speichern, die ich dann wieder in R öffnen kann?
137 r  dataframe 

2
Wie füge ich eine Spark-Spalte in einen Spark DataFrame ein?
Ich möchte eine Spalte in a DataFramemit einem beliebigen Wert hinzufügen (das ist für jede Zeile gleich). Ich erhalte eine Fehlermeldung, wenn ich withColumnFolgendes verwende: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

7
Suchen Sie eine Spalte, deren Name eine bestimmte Zeichenfolge enthält
Ich habe einen Datenrahmen mit Spaltennamen und möchte den finden, der eine bestimmte Zeichenfolge enthält, aber nicht genau mit dieser übereinstimmt. Ich suche 'spike'in Spaltennamen wie 'spike-2', 'hey spike', 'spiked-in'(der 'spike'Teil immer stetig ist). Ich möchte, dass der Spaltenname als Zeichenfolge oder Variable zurückgegeben wird, damit ich später mit df['name']oder …

5
Pandas Datenrahmen erhalten die erste Zeile jeder Gruppe
Ich habe einen Pandas DataFramewie folgt. df = pd.DataFrame({'id' : [1,1,1,2,2,3,3,3,3,4,4,5,6,6,6,7,7], 'value' : ["first","second","second","first", "second","first","third","fourth", "fifth","second","fifth","first", "first","second","third","fourth","fifth"]}) Ich möchte dies nach ["id", "value"] gruppieren und die erste Zeile jeder Gruppe erhalten. id value 0 1 first 1 1 second 2 1 second 3 2 first 4 2 second 5 3 …
137 python  pandas  dataframe 

6
Pandas Dataframe-Spalten, die mit sklearn skaliert werden
Ich habe einen Pandas-Datenrahmen mit gemischten Spalten und möchte den min_max_scaler von sklearn auf einige der Spalten anwenden. Im Idealfall würde ich diese Transformationen gerne an Ort und Stelle durchführen, habe aber noch keinen Weg gefunden, dies zu tun. Ich habe den folgenden Code geschrieben, der funktioniert: import pandas as …

6
pandas: Wie teile ich Text in einer Spalte in mehrere Zeilen auf?
Ich arbeite mit einer großen CSV-Datei und die vorletzte Spalte enthält eine Textzeichenfolge, die ich durch ein bestimmtes Trennzeichen teilen möchte. Ich habe mich gefragt, ob es einen einfachen Weg gibt, dies mit Pandas oder Python zu tun. CustNum CustomerName ItemQty Item Seatblocks ItemExt 32363 McCartney, Paul 3 F04 2:218:10:4,6 …
135 python  pandas  dataframe 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.