Der strAccessor, der für pandas.SeriesObjekte von verfügbar ist, dtype == objectist tatsächlich iterierbar.
Angenommen, a pandas.DataFrame df:
df = pd.DataFrame(dict(col=[*zip('abcdefghij', range(10, 101, 10))]))
df
col
0 (a, 10)
1 (b, 20)
2 (c, 30)
3 (d, 40)
4 (e, 50)
5 (f, 60)
6 (g, 70)
7 (h, 80)
8 (i, 90)
9 (j, 100)
Wir können testen, ob es iterierbar ist
from collections import Iterable
isinstance(df.col.str, Iterable)
True
Wir können es dann wie andere Iterables zuweisen:
var0, var1 = 'xy'
print(var0, var1)
x y
Einfachste Lösung
In einer Zeile können wir also beide Spalten zuweisen
df['a'], df['b'] = df.col.str
df
col a b
0 (a, 10) a 10
1 (b, 20) b 20
2 (c, 30) c 30
3 (d, 40) d 40
4 (e, 50) e 50
5 (f, 60) f 60
6 (g, 70) g 70
7 (h, 80) h 80
8 (i, 90) i 90
9 (j, 100) j 100
Schnellere Lösung
Nur etwas komplizierter, können wir verwenden zip, um eine ähnliche iterable zu erstellen
df['c'], df['d'] = zip(*df.col)
df
col a b c d
0 (a, 10) a 10 a 10
1 (b, 20) b 20 b 20
2 (c, 30) c 30 c 30
3 (d, 40) d 40 d 40
4 (e, 50) e 50 e 50
5 (f, 60) f 60 f 60
6 (g, 70) g 70 g 70
7 (h, 80) h 80 h 80
8 (i, 90) i 90 i 90
9 (j, 100) j 100 j 100
In der Reihe
Bedeutung, vorhandene nicht mutieren df
Dies funktioniert, da assignSchlüsselwortargumente verwendet werden, bei denen die Schlüsselwörter die neuen (oder vorhandenen) Spaltennamen sind und die Werte die Werte der neuen Spalte sind. Sie können ein Wörterbuch verwenden und es entpacken **und als Schlüsselwortargumente verwenden. Dies ist also eine clevere Möglichkeit, eine neue Spalte mit dem Namen zuzuweisen , die 'g'das erste Element in der df.col.strIterable und 'h'das zweite Element in der df.col.strIterable ist.
df.assign(**dict(zip('gh', df.col.str)))
col g h
0 (a, 10) a 10
1 (b, 20) b 20
2 (c, 30) c 30
3 (d, 40) d 40
4 (e, 50) e 50
5 (f, 60) f 60
6 (g, 70) g 70
7 (h, 80) h 80
8 (i, 90) i 90
9 (j, 100) j 100
Meine Version des listAnsatzes
Mit modernem Listenverständnis und variablem Auspacken.
Hinweis: auch inline mitjoin
df.join(pd.DataFrame([*df.col], df.index, [*'ef']))
col g h
0 (a, 10) a 10
1 (b, 20) b 20
2 (c, 30) c 30
3 (d, 40) d 40
4 (e, 50) e 50
5 (f, 60) f 60
6 (g, 70) g 70
7 (h, 80) h 80
8 (i, 90) i 90
9 (j, 100) j 100
Die mutierende Version wäre
df[['e', 'f']] = pd.DataFrame([*df.col], df.index)
Naiver Zeittest
Kurzer DataFrame
Verwenden Sie eine oben definierte
%timeit df.assign(**dict(zip('gh', df.col.str)))
%timeit df.assign(**dict(zip('gh', zip(*df.col))))
%timeit df.join(pd.DataFrame([*df.col], df.index, [*'gh']))
1.16 ms ± 21.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
635 µs ± 18.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
795 µs ± 42.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
Langer DataFrame
10 ^ 3 mal größer
df = pd.concat([df] * 1000, ignore_index=True)
%timeit df.assign(**dict(zip('gh', df.col.str)))
%timeit df.assign(**dict(zip('gh', zip(*df.col))))
%timeit df.join(pd.DataFrame([*df.col], df.index, [*'gh']))
11.4 ms ± 1.53 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)
2.1 ms ± 41.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
2.33 ms ± 35.1 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)