Pandas Datenrahmen read_csv bei fehlerhaften Daten

Question 1

Ich möchte eine sehr große CSV-Datei einlesen (kann nicht einfach in Excel geöffnet und bearbeitet werden), aber irgendwo in der 100.000sten Zeile gibt es eine Zeile mit einer zusätzlichen Spalte, die zum Absturz des Programms führt. Diese Zeile ist fehlerhaft, daher muss ich die Tatsache ignorieren, dass es sich um eine zusätzliche Spalte handelt. Es gibt ungefähr 50 Spalten, daher ist es nicht vorzuziehen, die Header fest zu codieren und Namen oder Usecols zu verwenden. Ich werde dieses Problem möglicherweise auch in anderen CSVs finden und möchte eine generische Lösung. Ich konnte leider nichts in read_csv finden. Der Code ist so einfach:

def loadCSV(filePath):
    dataframe = pd.read_csv(filePath, index_col=False, encoding='iso-8859-1', nrows=1000)
    datakeys = dataframe.keys();
    return dataframe, datakeys

Question 2

Übergeben error_bad_lines=False, um fehlerhafte Zeilen zu überspringen:

error_bad_lines: Boolesche, standardmäßige True Lines mit zu vielen Feldern (z. B. eine CSV-Zeile mit zu vielen Kommas) führen standardmäßig dazu, dass eine Ausnahme ausgelöst wird und kein DataFrame zurückgegeben wird. Wenn False, werden diese "fehlerhaften Zeilen" aus dem zurückgegebenen DataFrame entfernt. (Nur gültig mit C-Parser)

Question 3

Um Informationen über fehlerverursachende Zeilen zu erhalten, verwenden Sie die Kombination aus error_bad_lines=Falseund warn_bad_lines=True:

dataframe = pd.read_csv(filePath, index_col=False, encoding='iso-8859-1', nrows=1000,
                        warn_bad_lines=True, error_bad_lines=False)

error_bad_lines=FalseÜberspringt fehlerverursachende Zeilen und warn_bad_lines=Truedruckt Fehlerdetails und Zeilennummer wie folgt:

'Skipping line 3: expected 4 fields, saw 3401\nSkipping line 4: expected 4 fields, saw 30...'

Wenn Sie die Warnmeldung speichern möchten (dh für eine weitere Verarbeitung), können Sie sie auch in einer Datei speichern (unter Verwendung von contextlib):

import contextlib

with open(r'D:\Temp\log.txt', 'w') as log:
    with contextlib.redirect_stderr(log):
        dataframe = pd.read_csv(filePath, index_col=False, encoding='iso-8859-1', 
                                warn_bad_lines=True, error_bad_lines=False)

Question 4

Hier ist mein Weg, um dieses Problem zu lösen. Es ist langsam, funktioniert aber so gut. Einfach gesagt, lesen Sie einfach die CSV-Datei als txt-Datei und gehen Sie jede Zeile durch. Wenn das Komma "," kleiner ist als es sein sollte, überspringen Sie einfach diese Zeile. Eventuell die richtigen Leitungen sichern.

def bad_lines(path):
    import itertools
    num_columns = []
    lines = ""
    
    for i in range(10,50,5):
        content = open(path).readlines(i)[0]
        if (content.count("'") == 0) and (content.count('"') == 0):
            num_columns.append(content.count(","))

    if len(set(num_columns)) == 1:
        for line in itertools.islice(open(path), 0, None):
            if line.count(",") >= num_columns[0]:
                lines = lines + line

    text_file = open("temp.txt", "w")
    n = text_file.write(lines)
    text_file.close()
    
    return("temp.txt")