Programmierung pandas

4

Verwenden Sie Daten in Pandas-Datenrahmen, um Spalten miteinander abzugleichen

Ich habe zwei pandasDatenrahmen aund b: a1 a2 a3 a4 a5 a6 a7 1 3 4 5 3 4 5 0 2 0 3 0 2 1 2 5 6 5 2 1 2 und b1 b2 b3 b4 b5 b6 b7 3 5 4 5 1 4 3 0 …

18 python python-3.x pandas

3

So konvertieren Sie Pandas-Datenrahmen in ein hierarchisches Wörterbuch

Ich habe den folgenden Pandas-Datenrahmen: df1 = pd.DataFrame({'date': [200101,200101,200101,200101,200102,200102,200102,200102],'blockcount': [1,1,2,2,1,1,2,2],'reactiontime': [350,400,200,250,100,300,450,400]}) Ich versuche, ein hierarchisches Wörterbuch mit den Werten des eingebetteten Wörterbuchs als Listen zu erstellen, das folgendermaßen aussieht: {200101: {1:[350, 400], 2:[200, 250]}, 200102: {1:[100, 300], 2:[450, 400]}} Wie würde ich das machen? Das nächste, was ich bekomme, ist …

16 python pandas

4

Listen in zwei Spalten zeilenweise effizient vergleichen

Wenn Sie einen Pandas DataFrame wie diesen haben: import pandas as pd import numpy as np df = pd.DataFrame({'today': [['a', 'b', 'c'], ['a', 'b'], ['b']], 'yesterday': [['a', 'b'], ['a'], ['a']]}) today yesterday 0 ['a', 'b', 'c'] ['a', 'b'] 1 ['a', 'b'] ['a'] 2 ['b'] ['a'] ... etc Aber mit ungefähr …

16 python pandas numpy dataframe

5

Verhindern Sie das Erzwingen von Pandas-Datenrahmen beim Indizieren und Einfügen von Zeilen

Ich arbeite mit einzelnen Zeilen von Pandas-Datenrahmen, aber ich stolpere über Zwangsprobleme beim Indizieren und Einfügen von Zeilen. Pandas scheint immer von einem gemischten int / float-Typ zu einem All-float-Typ zwingen zu wollen, und ich kann keine offensichtlichen Kontrollen für dieses Verhalten erkennen. Hier ist zum Beispiel ein einfacher Datenrahmen …

16 python pandas coercion

6

Finden Sie schnell symmetrische Paare in numpy

from itertools import product import pandas as pd df = pd.DataFrame.from_records(product(range(10), range(10))) df = df.sample(90) df.columns = "c1 c2".split() df = df.sort_values(df.columns.tolist()).reset_index(drop=True) # c1 c2 # 0 0 0 # 1 0 1 # 2 0 2 # 3 0 3 # 4 0 4 # .. .. .. # …

15 python pandas numpy

3

Holen Sie sich die nächste Entfernung mit zwei Geodatenrahmen in Pandas

Hier ist mein erster Geodatframe: !pip install geopandas import pandas as pd import geopandas city1 = [{'City':"Buenos Aires","Country":"Argentina","Latitude":-34.58,"Longitude":-58.66}, {'City':"Brasilia","Country":"Brazil","Latitude":-15.78 ,"Longitude":-70.66}, {'City':"Santiago","Country":"Chile ","Latitude":-33.45 ,"Longitude":-70.66 }] city2 = [{'City':"Bogota","Country":"Colombia ","Latitude":4.60 ,"Longitude":-74.08}, {'City':"Caracas","Country":"Venezuela","Latitude":10.48 ,"Longitude":-66.86}] city1df = pd.DataFrame(city1) city2df = pd.DataFrame(city2) gcity1df = geopandas.GeoDataFrame( city1df, geometry=geopandas.points_from_xy(city1df.Longitude, city1df.Latitude)) gcity2df = geopandas.GeoDataFrame( city2df, geometry=geopandas.points_from_xy(city2df.Longitude, city2df.Latitude)) Stadt1 …

14 python pandas dataframe geolocation geopandas

4

Berechnen Sie den Prozentsatz ähnlicher Werte im Pandas-Datenrahmen

Ich habe einen Datenrahmen dfmit zwei Spalten: Skript (mit Text) und Sprecher Script Speaker aze Speaker 1 art Speaker 2 ghb Speaker 3 jka Speaker 1 tyc Speaker 1 avv Speaker 2 bhj Speaker 1 Und ich habe folgende Liste: L = ['a','b','c'] Mit dem folgenden Code: df = (df.set_index('Speaker')['Script'].str.findall('|'.join(L)) …

14 python python-3.x pandas dataframe

2

Schliessen Sie, welche Spalten datetime sind

Ich habe einen riesigen Datenrahmen mit vielen Spalten, von denen viele vom Typ sind datetime.datetime. Das Problem ist, dass viele auch gemischte Typen haben, einschließlich zum Beispiel datetime.datetimeWerte und NoneWerte (und möglicherweise andere ungültige Werte): 0 2017-07-06 00:00:00 1 2018-02-27 21:30:05 2 2017-04-12 00:00:00 3 2017-05-21 22:05:00 4 2018-01-22 00:00:00 …

14 python pandas

3

Warum führt die Zuweisung mit [:] gegenüber iloc [:] bei Pandas zu unterschiedlichen Ergebnissen?

Ich bin so verwirrt mit verschiedenen Indizierungsmethoden, die ilocin Pandas verwendet werden. Angenommen, ich versuche, einen 1-D-Datenrahmen in einen 2-D-Datenrahmen zu konvertieren. Zuerst habe ich den folgenden 1-D-Datenrahmen a_array = [1,2,3,4,5,6,7,8] a_df = pd.DataFrame(a_array).T Und ich werde das in einen 2D-Datenrahmen mit der Größe von konvertieren 2x4. Ich beginne mit …

13 python pandas dataframe

1

Die Funktion to_excel von Pandas generiert einen unerwarteten TypeError

Ich habe ein Wörterbuch mit Pandas-Datenrahmen erstellt: d[k] = pd.DataFrame(data=data[i]) Ich d[k]gehe also davon aus, dass dies ein korrekter Pandas-Datenrahmen ist. Dann for k in d.keys(): d[k].to_excel (file_name) Dann habe ich den Fehler: TypeError: got invalid input value of type <class 'xml.etree.ElementTree.Element'>, expected string or Element Ich benutze Python 3.7, …

13 python pandas export-to-excel

3

Langsame Pandas DataFrame MultiIndex neu indizieren

Ich habe einen Pandas DataFrame des Formulars: id start_time sequence_no value 0 71 2018-10-17 20:12:43+00:00 114428 3 1 71 2018-10-17 20:12:43+00:00 114429 3 2 71 2018-10-17 20:12:43+00:00 114431 79 3 71 2019-11-06 00:51:14+00:00 216009 100 4 71 2019-11-06 00:51:14+00:00 216011 150 5 71 2019-11-06 00:51:14+00:00 216013 180 6 92 2019-12-01 …

13 python pandas numpy dataframe

2

Generieren Sie gefilterte binäre kartesische Produkte

Problemstellung Ich suche nach einer effizienten Möglichkeit, vollständige binäre kartesische Produkte (Tabellen mit allen Kombinationen von Wahr und Falsch mit einer bestimmten Anzahl von Spalten) zu generieren, die nach bestimmten exklusiven Bedingungen gefiltert werden. Zum Beispiel n=3würden wir für drei Spalten / Bits die vollständige Tabelle erhalten df_combs = pd.DataFrame(itertools.product(*([[True, …

12 python pandas dataframe

1

pandasUDF und pyarrow 0.15.0

Ich habe vor kurzem eine Reihe von Fehlern bei einer Reihe von pysparkJobs erhalten, die auf EMR-Clustern ausgeführt werden. Die Fehler sind java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at …

12 pandas apache-spark pyspark pyarrow

5

Fügen Sie die in der Liste gefundene ID zu der neuen Spalte im Pandas-Datenrahmen hinzu

Angenommen, ich habe den folgenden Datenrahmen (eine Spalte mit Ganzzahlen und eine Spalte mit einer Liste von Ganzzahlen) ... ID Found_IDs 0 12345 [15443, 15533, 3433] 1 15533 [2234, 16608, 12002, 7654] 2 6789 [43322, 876544, 36789] Und auch eine separate Liste von IDs ... bad_ids = [15533, 876544, 36789, …

11 python python-3.x pandas dataframe

9

Erstellen Sie eine NxN-Matrix aus Pandas mit einer Spalte

Ich habe Datenrahmen mit jeder Zeile mit einem Listenwert. id list_of_value 0 ['a','b','c'] 1 ['d','b','c'] 2 ['a','b','c'] 3 ['a','b','c'] Ich muss eine Punktzahl mit einer Zeile und gegen alle anderen Zeilen berechnen Zum Beispiel: Step 1: Take value of id 0: ['a','b','c'], Step 2: find the intersection between id 0 …

11 python pandas numpy

Als «pandas» getaggte Fragen