Ich habe eine Datei in UTF-8, die mehrsprachige Texte enthält. Vieles davon sind die Namen von Menschen. Ich muss es in ASCII konvertieren und das Ergebnis muss so anständig wie möglich aussehen.
Es gibt viele Möglichkeiten, um die Konvertierung von einer breiteren in eine engere Codierung zu erreichen. Die einfachste Transformation wäre, alle Nicht-ASCII-Zeichen durch einen Platzhalter wie '_' zu ersetzen. Wenn ich die Sprache kenne, in der die Datei geschrieben ist, gibt es zusätzliche Möglichkeiten, z. B. die Romanisierung.
Welches Unix-Tool oder welche Programmiersprachenbibliothek, die unter Unix verfügbar sind, kann mir eine anständige (bestmögliche) Konvertierung von UTF-8 nach ASCII ermöglichen?
Der größte Teil des Textes ist in europäischen lateinischen Sprachen verfasst.
iconv
und tr
gibt es Unidecode . Ich bin damit nicht vertraut, aber es kann tun, was Sie wollen, wenn Sie Python verwenden können.