Ich möchte eine sehr große CSV-Datei einlesen (kann nicht einfach in Excel geöffnet und bearbeitet werden), aber irgendwo in der 100.000sten Zeile gibt es eine Zeile mit einer zusätzlichen Spalte, die zum Absturz des Programms führt. Diese Zeile ist fehlerhaft, daher muss ich die Tatsache ignorieren, dass es sich um eine zusätzliche Spalte handelt. Es gibt ungefähr 50 Spalten, daher ist es nicht vorzuziehen, die Header fest zu codieren und Namen oder Usecols zu verwenden. Ich werde dieses Problem möglicherweise auch in anderen CSVs finden und möchte eine generische Lösung. Ich konnte leider nichts in read_csv finden. Der Code ist so einfach:
def loadCSV(filePath):
dataframe = pd.read_csv(filePath, index_col=False, encoding='iso-8859-1', nrows=1000)
datakeys = dataframe.keys();
return dataframe, datakeys
warn_bad_lines=True
weiter helfen, die problematischen Zeilen zu diagnostizieren.