Wenn ich an Datenanalyseprojekten arbeite, speichere ich Daten häufig in durch Kommas oder Tabulatoren getrennten (CSV, TSV) Datendateien. Während Daten häufig in ein dediziertes Datenbankverwaltungssystem gehören. Für viele meiner Anwendungen wäre dies eine Übertreibung.
Ich kann CSV- und TSV-Dateien in Excel (oder vermutlich einem anderen Tabellenkalkulationsprogramm) bearbeiten. Das hat Vorteile:
- Tabellenkalkulationen erleichtern die Eingabe von Daten
Es gibt auch mehrere Probleme:
- Das Arbeiten mit CSV- und TSV-Dateien führt zu einer Vielzahl von Warnmeldungen über den Verlust verschiedener Funktionen und darüber, wie nur das aktive Blatt gespeichert wird und so weiter. Daher ist es ärgerlich, wenn Sie nur die Datei öffnen und ein wenig ändern möchten.
- Es werden viele "vermeintlich intelligente" Konvertierungen durchgeführt. Wenn Sie zum Beispiel 12/3 eingeben, wird davon ausgegangen, dass Sie ein Datum eingeben möchten. UPDATE: Ich hätte erwähnen sollen, dass das Datumsbeispiel nur eines von vielen Beispielen ist. Die meisten Probleme scheinen mit einer unangemessenen Konvertierung zu zusammenhängen. Insbesondere Textfelder, die wie Zahlen oder Datumsangaben aussehen, verursachen Probleme.
Alternativ könnte ich direkt mit der Textdatei in einem Standard-Texteditor arbeiten. Dies stellt sicher, dass das, was ich eingebe, das ist, was aufgezeichnet wird. Es ist jedoch sehr umständlich, Daten einzugeben (Spalten nicht aneinanderreihen; es ist schwierig, Daten einfach in mehrere Zellen einzugeben usw.).
Frage
- Was ist eine gute Strategie für die Arbeit mit CSV- oder TSV-Datendateien? Welche Strategie erleichtert die Eingabe und Bearbeitung der Daten und stellt gleichzeitig sicher, dass die von Ihnen eingegebenen Daten korrekt interpretiert werden?