In einer früheren Frage habe ich nach Tools zum Bearbeiten von CSV-Dateien gefragt .
Gavin ist mit einem Kommentar zu R Help von Duncan Murdoch verknüpft, der darauf hinweist , dass das Datenaustauschformat eine zuverlässigere Methode zum Speichern von Daten ist als CSV.
Für einige Anwendungen ist ein dediziertes Datenbankverwaltungssystem erforderlich. Für kleinere Datenanalyseprojekte scheint jedoch etwas Leichteres geeigneter zu sein.
Berücksichtigen Sie die folgenden Kriterien für die Bewertung eines Dateiformats:
- Zuverlässig : Die eingegebenen Daten müssen den eingegebenen Daten entsprechen. Daten sollten in unterschiedlicher Software konsistent geöffnet werden.
- einfach : es wäre schön, wenn das dateiformat einfach zu verstehen und idealerweise mit einem einfachen texteditor lesbar wäre; Es sollte einfach sein, ein einfaches Programm zu schreiben, um das Format zu lesen und zu schreiben.
- offen : Das Format sollte offen sein
- interoperabel : Das Dateiformat sollte von vielen Systemen unterstützt werden
Ich finde, dass durch Tabulatoren und Kommas getrennte Wertformate das Zuverlässigkeitskriterium nicht erfüllen. Obwohl ich denke, ich könnte eher das Importieren und Exportieren von Programmen als das Dateiformat verantwortlich machen. Ich muss oft kleine Anpassungen an den Optionen vornehmen,
read.table
um zu verhindern, dass ein seltsamer Charakter das Laden des Datenrahmens unterbricht.
Fragen
- Welches Dateiformat erfüllt diese Anforderungen am besten?
- Ist das Datenaustauschformat eine bessere Alternative? oder hat es seine eigenen probleme
- Gibt es ein anderes Format, das vorzuziehen ist?
- Beurteile ich TSV und CSV zu Unrecht? Gibt es einfache Tipps zum Arbeiten mit solchen Dateien, die das Dateiformat zuverlässiger machen?
write.DIF()
Einbahnstraße, daher fürchte ich, dass dies eine Einbahnstraße ist.