Als «dataframe» getaggte Fragen

Ein Datenrahmen ist eine tabellarische Datenstruktur. Normalerweise enthält es Daten, bei denen Zeilen Beobachtungen und Spalten Variablen verschiedener Typen sind. Während "Datenrahmen" oder "Datenrahmen" der Begriff ist, der für dieses Konzept in mehreren Sprachen verwendet wird (R, Apache Spark, deedle, Maple, die Pandas-Bibliothek in Python und die DataFrames-Bibliothek in Julia), ist "Tabelle" der Begriff, der in verwendet wird MATLAB und SQL.


8
Pandas eindeutige Werte mehrere Spalten
df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'], 'Col3': np.random.random(5)}) Was ist der beste Weg, um die eindeutigen Werte von 'Col1' und 'Col2' zurückzugeben? Die gewünschte Ausgabe ist 'Bob', 'Joe', 'Bill', 'Mary', 'Steve'

4
Python-Pandas: Füllen Sie einen Datenrahmen Zeile für Zeile
Die einfache Aufgabe, einem pandas.DataFrameObjekt eine Zeile hinzuzufügen, scheint schwer zu erfüllen zu sein. Es gibt 3 Fragen zum Stapelüberlauf, von denen keine eine funktionierende Antwort gibt. Folgendes versuche ich zu tun. Ich habe einen DataFrame, dessen Form ich bereits kenne, sowie die Namen der Zeilen und Spalten. >>> df …
133 python  dataframe  row  pandas 



8
Lassen Sie Zeilen weg, die eine bestimmte Spalte von NA enthalten
Ich möchte wissen, wie man NAWerte in einem Datenrahmen weglässt, aber nur in einigen Spalten, die mich interessieren. Beispielsweise, DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) aber ich möchte nur die Daten weglassen, wo yist NA, deshalb sollte das Ergebnis sein x …
129 r  dataframe  na 


5
R - Zwei Datenrahmen verketten?
Gegeben zwei Datenrahmen aund b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284 -0.3295925 2 0.5201492 0.3341251 3 -2.6355570 1.7916780 4 -1.3645337 1.3642276 5 -0.4954542 -0.6660001 Gibt …

10
Wie kann eine Zeile zu einem Datenrahmen in R hinzugefügt werden?
Wie fügt man in R einem Datenrahmen eine neue Zeile hinzu, nachdem der Datenrahmen bereits initialisiert wurde? Bisher habe ich Folgendes: df <- data.frame("hi", "bye") names(df) <- c("hello", "goodbye") #I am trying to add "hola" and "ciao" as a new row de <- data.frame("hola", "ciao") merge(df, de) # Adds to …
129 r  dataframe 

4
Verketten Sie eine Liste von Pandas-Datenrahmen
Ich habe eine Liste von Pandas-Datenrahmen, die ich zu einem Pandas-Datenrahmen kombinieren möchte. Ich benutze Python 2.7.10 und Pandas 0.16.2 Ich habe die Liste der Datenrahmen erstellt aus: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): dfs.append(chunk) Dies …


9
Wie füge ich einem Spark DataFrame eine neue Spalte hinzu (mit PySpark)?
Ich habe einen Spark DataFrame (mit PySpark 1.5.1) und möchte eine neue Spalte hinzufügen. Ich habe Folgendes ohne Erfolg versucht: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Habe auch einen Fehler dabei: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Wie füge …

3
Mehrere Aggregationen derselben Spalte mit pandas GroupBy.agg ()
Gibt es eine integrierte Pandas-Methode, um zwei verschiedene Aggregationsfunktionen f1, f2auf dieselbe Spalte anzuwenden df["returns"], ohne agg()mehrmals aufrufen zu müssen ? Beispieldatenrahmen: import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : 0.05 * np.random.randn(10), "dummy" …

5
Fügen Sie fehlende Daten zum Pandas-Datenrahmen hinzu
Meine Daten können an einem bestimmten Datum mehrere Ereignisse oder an einem Datum KEINE Ereignisse enthalten. Ich nehme diese Ereignisse, zähle sie nach Datum und zeichne sie auf. Wenn ich sie jedoch zeichne, stimmen meine beiden Serien nicht immer überein. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s = df.groupby(['simpleDate']).size() Im obigen Code …
126 python  date  plot  pandas  dataframe 


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.