Ich muss einen Datenrahmen erstellen, indem ich Daten aus einer Datei mit der read_csv
Methode einlese. Die Trennzeichen sind jedoch nicht sehr regelmäßig: Einige Spalten sind durch Tabulatoren ( \t
) getrennt, andere durch Leerzeichen. Darüber hinaus können einige Spalten durch 2 oder 3 oder mehr Leerzeichen oder sogar durch eine Kombination von Leerzeichen und Tabulatoren getrennt werden (z. B. 3 Leerzeichen, zwei Tabulatoren und dann 1 Leerzeichen).
Gibt es eine Möglichkeit, Pandas anzuweisen, diese Dateien richtig zu behandeln?
Übrigens habe ich dieses Problem nicht, wenn ich Python verwende. Ich benutze:
for line in file(file_name):
fld = line.split()
Und es funktioniert perfekt. Es ist egal, ob zwischen den Feldern 2 oder 3 Leerzeichen stehen. Selbst Kombinationen von Leerzeichen und Tabulatoren verursachen keine Probleme. Können Pandas dasselbe tun?
skipinitialspace
, um das anfängliche Leerzeichen zu überspringen