Programmierung dataframe

4

Was ist der effizienteste Weg, um ein Wörterbuch mit zwei Pandas-Dataframe-Spalten zu erstellen?

Was ist der effizienteste Weg, um die folgenden Pandas Dataframe zu organisieren: Daten = Position Letter 1 a 2 b 3 c 4 d 5 e in ein Wörterbuch wie alphabet[1 : 'a', 2 : 'b', 3 : 'c', 4 : 'd', 5 : 'e']?

135 python dictionary pandas dataframe

8

Pandas eindeutige Werte mehrere Spalten

df = pd.DataFrame({'Col1': ['Bob', 'Joe', 'Bill', 'Mary', 'Joe'], 'Col2': ['Joe', 'Steve', 'Bob', 'Bob', 'Steve'], 'Col3': np.random.random(5)}) Was ist der beste Weg, um die eindeutigen Werte von 'Col1' und 'Col2' zurückzugeben? Die gewünschte Ausgabe ist 'Bob', 'Joe', 'Bill', 'Mary', 'Steve'

134 python pandas dataframe unique

4

Python-Pandas: Füllen Sie einen Datenrahmen Zeile für Zeile

Die einfache Aufgabe, einem pandas.DataFrameObjekt eine Zeile hinzuzufügen, scheint schwer zu erfüllen zu sein. Es gibt 3 Fragen zum Stapelüberlauf, von denen keine eine funktionierende Antwort gibt. Folgendes versuche ich zu tun. Ich habe einen DataFrame, dessen Form ich bereits kenne, sowie die Namen der Zeilen und Spalten. >>> df …

133 python dataframe row pandas

5

Pandas DataFrame: Ersetzen Sie alle Werte in einer Spalte basierend auf der Bedingung

Ich habe einen einfachen DataFrame wie den folgenden: Ich möchte alle Werte aus der Spalte "Erste Staffel" auswählen und diejenigen, die über 1990 liegen, durch 1 ersetzen. In diesem Beispiel würde nur Baltimore Ravens das 1996 durch 1 ersetzen (wobei der Rest der Daten intakt bleibt). Ich habe folgendes verwendet: …

132 python pandas dataframe

2

Weisen Sie mehrere Spalten mit: = in data.table nach Gruppe zu

Was ist der beste Weg, um mehrere Spalten mit zuzuweisen data.table? Beispielsweise: f <- function(x) {c("hi", "hello")} x <- data.table(id = 1:10) Ich würde gerne so etwas machen (natürlich ist diese Syntax falsch): x[ , (col1, col2) := f(), by = "id"] Und um das zu erweitern, habe ich möglicherweise …

130 r dataframe data.table variable-assignment colon-equals

8

Lassen Sie Zeilen weg, die eine bestimmte Spalte von NA enthalten

Ich möchte wissen, wie man NAWerte in einem Datenrahmen weglässt, aber nur in einigen Spalten, die mich interessieren. Beispielsweise, DF <- data.frame(x = c(1, 2, 3), y = c(0, 10, NA), z=c(NA, 33, 22)) aber ich möchte nur die Daten weglassen, wo yist NA, deshalb sollte das Ergebnis sein x …

129 r dataframe na

9

Entfernen Sie unerwünschte Teile von Zeichenfolgen in einer Spalte

Ich suche nach einer effizienten Möglichkeit, unerwünschte Teile aus Zeichenfolgen in einer DataFrame-Spalte zu entfernen. Daten sehen aus wie: time result 1 09:00 +52A 2 10:00 +62B 3 11:00 +44a 4 12:00 +30b 5 13:00 -110a Ich muss diese Daten kürzen, um: time result 1 09:00 52 2 10:00 62 …

129 python string pandas dataframe

5

R - Zwei Datenrahmen verketten?

Gegeben zwei Datenrahmen aund b: > a a b c 1 -0.2246894 -1.48167912 -1.65099363 2 0.5559320 -0.87898575 -0.15634590 3 1.8469466 -0.01487524 -0.53098215 4 -0.6875051 0.23880967 0.01824621 5 -0.6735163 0.75485292 0.44154092 > b a c 1 0.4287284 -0.3295925 2 0.5201492 0.3341251 3 -2.6355570 1.7916780 4 -1.3645337 1.3642276 5 -0.4954542 -0.6660001 Gibt …

129 r dataframe concatenation

10

Wie kann eine Zeile zu einem Datenrahmen in R hinzugefügt werden?

Wie fügt man in R einem Datenrahmen eine neue Zeile hinzu, nachdem der Datenrahmen bereits initialisiert wurde? Bisher habe ich Folgendes: df <- data.frame("hi", "bye") names(df) <- c("hello", "goodbye") #I am trying to add "hola" and "ciao" as a new row de <- data.frame("hola", "ciao") merge(df, de) # Adds to …

129 r dataframe

4

Verketten Sie eine Liste von Pandas-Datenrahmen

Ich habe eine Liste von Pandas-Datenrahmen, die ich zu einem Pandas-Datenrahmen kombinieren möchte. Ich benutze Python 2.7.10 und Pandas 0.16.2 Ich habe die Liste der Datenrahmen erstellt aus: import pandas as pd dfs = [] sqlall = "select * from mytable" for chunk in pd.read_sql_query(sqlall , cnxn, chunksize=10000): dfs.append(chunk) Dies …

129 python pandas dataframe concat

5

Wie definiere ich die Partitionierung von DataFrame?

Ich habe begonnen, Spark SQL und DataFrames in Spark 1.4.0 zu verwenden. Ich möchte einen benutzerdefinierten Partitionierer in DataFrames in Scala definieren, sehe aber nicht, wie das geht. Eine der Datentabellen, mit denen ich arbeite, enthält eine Liste von Transaktionen nach Konto, silimar zum folgenden Beispiel. Account Date Type Amount …

128 scala apache-spark dataframe apache-spark-sql partitioning

9

Wie füge ich einem Spark DataFrame eine neue Spalte hinzu (mit PySpark)?

Ich habe einen Spark DataFrame (mit PySpark 1.5.1) und möchte eine neue Spalte hinzufügen. Ich habe Folgendes ohne Erfolg versucht: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) Habe auch einen Fehler dabei: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Wie füge …

127 python apache-spark dataframe pyspark apache-spark-sql

3

Mehrere Aggregationen derselben Spalte mit pandas GroupBy.agg ()

Gibt es eine integrierte Pandas-Methode, um zwei verschiedene Aggregationsfunktionen f1, f2auf dieselbe Spalte anzuwenden df["returns"], ohne agg()mehrmals aufrufen zu müssen ? Beispieldatenrahmen: import pandas as pd import datetime as dt pd.np.random.seed(0) df = pd.DataFrame({ "date" : [dt.date(2012, x, 1) for x in range(1, 11)], "returns" : 0.05 * np.random.randn(10), "dummy" …

127 python pandas dataframe aggregate pandas-groupby

5

Fügen Sie fehlende Daten zum Pandas-Datenrahmen hinzu

Meine Daten können an einem bestimmten Datum mehrere Ereignisse oder an einem Datum KEINE Ereignisse enthalten. Ich nehme diese Ereignisse, zähle sie nach Datum und zeichne sie auf. Wenn ich sie jedoch zeichne, stimmen meine beiden Serien nicht immer überein. idx = pd.date_range(df['simpleDate'].min(), df['simpleDate'].max()) s = df.groupby(['simpleDate']).size() Im obigen Code …

126 python date plot pandas dataframe

6

Wie schreibe ich kurz und bündig eine Formel mit vielen Variablen aus einem Datenrahmen?

Angenommen, ich habe eine Antwortvariable und Daten mit drei Kovariaten (als Spielzeugbeispiel): y = c(1,4,6) d = data.frame(x1 = c(4,-1,3), x2 = c(3,9,8), x3 = c(4,-4,-2)) Ich möchte eine lineare Regression an die Daten anpassen: fit = lm(y ~ d$x1 + d$x2 + d$y2) Gibt es eine Möglichkeit, die Formel …

126 r dataframe glm lm

Als «dataframe» getaggte Fragen