Es gibt viele reine Textdateien, die in verschiedenen Zeichensätzen codiert wurden.
Ich möchte sie alle in UTF-8 konvertieren, aber bevor iconv ausgeführt wird, muss ich die ursprüngliche Codierung kennen. Die meisten Browser haben eine Auto Detect
Kodierungsoption. Ich kann diese Textdateien jedoch nicht einzeln prüfen, da zu viele vorhanden sind.
Erst nachdem ich die ursprüngliche Kodierung gekannt habe, kann ich die Texte nach konvertieren iconv -f DETECTED_CHARSET -t utf-8
.
Gibt es ein Dienstprogramm zum Erkennen der Codierung von Nur-Text-Dateien? Es muss NICHT 100% perfekt sein, es macht mir nichts aus, wenn 100 Dateien in 1.000.000 Dateien falsch konvertiert sind.
python-chardet
in Ubuntu Universum Repo verpackt .