Als «pandas» getaggte Fragen

Pandas ist eine Python-Bibliothek zur Datenmanipulation und -analyse, z. B. Datenrahmen, mehrdimensionale Zeitreihen und Querschnittsdatensätze, die häufig in Statistiken, experimentellen wissenschaftlichen Ergebnissen, Ökonometrie oder Finanzen verwendet werden. Pandas ist eine der wichtigsten Data Science-Bibliotheken in Python.


3
So konvertieren Sie Pandas-Datenrahmen in ein hierarchisches Wörterbuch
Ich habe den folgenden Pandas-Datenrahmen: df1 = pd.DataFrame({'date': [200101,200101,200101,200101,200102,200102,200102,200102],'blockcount': [1,1,2,2,1,1,2,2],'reactiontime': [350,400,200,250,100,300,450,400]}) Ich versuche, ein hierarchisches Wörterbuch mit den Werten des eingebetteten Wörterbuchs als Listen zu erstellen, das folgendermaßen aussieht: {200101: {1:[350, 400], 2:[200, 250]}, 200102: {1:[100, 300], 2:[450, 400]}} Wie würde ich das machen? Das nächste, was ich bekomme, ist …
16 python  pandas 



6
Finden Sie schnell symmetrische Paare in numpy
from itertools import product import pandas as pd df = pd.DataFrame.from_records(product(range(10), range(10))) df = df.sample(90) df.columns = "c1 c2".split() df = df.sort_values(df.columns.tolist()).reset_index(drop=True) # c1 c2 # 0 0 0 # 1 0 1 # 2 0 2 # 3 0 3 # 4 0 4 # .. .. .. # …
15 python  pandas  numpy 

3
Holen Sie sich die nächste Entfernung mit zwei Geodatenrahmen in Pandas
Hier ist mein erster Geodatframe: !pip install geopandas import pandas as pd import geopandas city1 = [{'City':"Buenos Aires","Country":"Argentina","Latitude":-34.58,"Longitude":-58.66}, {'City':"Brasilia","Country":"Brazil","Latitude":-15.78 ,"Longitude":-70.66}, {'City':"Santiago","Country":"Chile ","Latitude":-33.45 ,"Longitude":-70.66 }] city2 = [{'City':"Bogota","Country":"Colombia ","Latitude":4.60 ,"Longitude":-74.08}, {'City':"Caracas","Country":"Venezuela","Latitude":10.48 ,"Longitude":-66.86}] city1df = pd.DataFrame(city1) city2df = pd.DataFrame(city2) gcity1df = geopandas.GeoDataFrame( city1df, geometry=geopandas.points_from_xy(city1df.Longitude, city1df.Latitude)) gcity2df = geopandas.GeoDataFrame( city2df, geometry=geopandas.points_from_xy(city2df.Longitude, city2df.Latitude)) Stadt1 …


2
Schliessen Sie, welche Spalten datetime sind
Ich habe einen riesigen Datenrahmen mit vielen Spalten, von denen viele vom Typ sind datetime.datetime. Das Problem ist, dass viele auch gemischte Typen haben, einschließlich zum Beispiel datetime.datetimeWerte und NoneWerte (und möglicherweise andere ungültige Werte): 0 2017-07-06 00:00:00 1 2018-02-27 21:30:05 2 2017-04-12 00:00:00 3 2017-05-21 22:05:00 4 2018-01-22 00:00:00 …
14 python  pandas 

3
Warum führt die Zuweisung mit [:] gegenüber iloc [:] bei Pandas zu unterschiedlichen Ergebnissen?
Ich bin so verwirrt mit verschiedenen Indizierungsmethoden, die ilocin Pandas verwendet werden. Angenommen, ich versuche, einen 1-D-Datenrahmen in einen 2-D-Datenrahmen zu konvertieren. Zuerst habe ich den folgenden 1-D-Datenrahmen a_array = [1,2,3,4,5,6,7,8] a_df = pd.DataFrame(a_array).T Und ich werde das in einen 2D-Datenrahmen mit der Größe von konvertieren 2x4. Ich beginne mit …

1
Die Funktion to_excel von Pandas generiert einen unerwarteten TypeError
Ich habe ein Wörterbuch mit Pandas-Datenrahmen erstellt: d[k] = pd.DataFrame(data=data[i]) Ich d[k]gehe also davon aus, dass dies ein korrekter Pandas-Datenrahmen ist. Dann for k in d.keys(): d[k].to_excel (file_name) Dann habe ich den Fehler: TypeError: got invalid input value of type <class 'xml.etree.ElementTree.Element'>, expected string or Element Ich benutze Python 3.7, …

3
Langsame Pandas DataFrame MultiIndex neu indizieren
Ich habe einen Pandas DataFrame des Formulars: id start_time sequence_no value 0 71 2018-10-17 20:12:43+00:00 114428 3 1 71 2018-10-17 20:12:43+00:00 114429 3 2 71 2018-10-17 20:12:43+00:00 114431 79 3 71 2019-11-06 00:51:14+00:00 216009 100 4 71 2019-11-06 00:51:14+00:00 216011 150 5 71 2019-11-06 00:51:14+00:00 216013 180 6 92 2019-12-01 …

2
Generieren Sie gefilterte binäre kartesische Produkte
Problemstellung Ich suche nach einer effizienten Möglichkeit, vollständige binäre kartesische Produkte (Tabellen mit allen Kombinationen von Wahr und Falsch mit einer bestimmten Anzahl von Spalten) zu generieren, die nach bestimmten exklusiven Bedingungen gefiltert werden. Zum Beispiel n=3würden wir für drei Spalten / Bits die vollständige Tabelle erhalten df_combs = pd.DataFrame(itertools.product(*([[True, …

1
pandasUDF und pyarrow 0.15.0
Ich habe vor kurzem eine Reihe von Fehlern bei einer Reihe von pysparkJobs erhalten, die auf EMR-Clustern ausgeführt werden. Die Fehler sind java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at …


9
Erstellen Sie eine NxN-Matrix aus Pandas mit einer Spalte
Ich habe Datenrahmen mit jeder Zeile mit einem Listenwert. id list_of_value 0 ['a','b','c'] 1 ['d','b','c'] 2 ['a','b','c'] 3 ['a','b','c'] Ich muss eine Punktzahl mit einer Zeile und gegen alle anderen Zeilen berechnen Zum Beispiel: Step 1: Take value of id 0: ['a','b','c'], Step 2: find the intersection between id 0 …
11 python  pandas  numpy 

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.