Die Spezifikation des CSV-Formats ist in RFC 4180 definiert . Diese Spezifikation wurde veröffentlicht, weil
Es gibt keine formale Spezifikation, die eine Vielzahl von Interpretationen von CSV-Dateien ermöglicht
Leider hat sich seit 2005 (Datum der Veröffentlichung des RFC) nichts geändert. Wir haben noch eine Vielzahl von Implementierungen. Der in RFC 4180 definierte allgemeine Ansatz besteht darin, Felder, die Zeichen wie Kommas enthalten, in Anführungszeichen zu setzen. Diese Empfehlung wird jedoch nicht immer von unterschiedlicher Software erfüllt.
Das Problem ist, dass in verschiedenen europäischen Gebietsschemata das Komma als Dezimaltrennzeichen verwendet wird, sodass Sie 0,005
anstelle von schreiben 0.005
. In anderen Fällen werden Kommas anstelle von Leerzeichen verwendet, um z. B. Zifferngruppen zu kennzeichnen 4,000,000.00
(siehe hier ). In beiden Fällen würde die Verwendung von Kommas möglicherweise zu Fehlern beim Lesen von Daten aus CSV-Dateien führen, da Ihre Software nicht genau weiß, ob 0,005, 0,1
es sich um zwei oder vier verschiedene Zahlen handelt (siehe Beispiel hier ).
Last but not least, wenn Sie Text in Ihrer Datendatei speichern, sind Kommas in Text viel häufiger als beispielsweise Semikolons. Wenn Ihr Text also nicht in Anführungszeichen eingeschlossen ist, können solche Daten auch leicht mit Fehlern gelesen werden .
Nichts macht Kommas besser oder schlechter als Feldtrennzeichen , sofern CSV-Dateien gemäß Empfehlungen wie RFC 4180 verwendet werden, die vor den oben beschriebenen Problemen schützen. Wenn jedoch die Gefahr besteht, dass das vereinfachte CSV-Format Felder in Anführungszeichen nicht einschließt oder die Empfehlung inkonsistent verwendet wird, sind andere Trennzeichen (z. B. Semikolon) sicherer.