In Unicode haben einige Zeichenkombinationen mehr als eine Darstellung.
Beispielsweise kann das Zeichen ä dargestellt werden als
- "ä", das ist der Codepunkt U + 00E4 (zwei Bytes
c3 a4
bei UTF-8-Codierung) oder as - "ä", das sind die beiden Codepunkte U + 0061 U + 0308 (drei Bytes
61 cc 88
in UTF-8).
Gemäß dem Unicode-Standard sind die beiden Darstellungen äquivalent, jedoch in unterschiedlichen "Normalisierungsformen", siehe UAX Nr. 15: Unicode-Normalisierungsformen .
Die Unix-Toolbox enthält alle Arten von Texttransformations-Tools, sed , tr , iconv und Perl. Wie kann ich eine schnelle und einfache NF-Konvertierung in der Befehlszeile durchführen?
perl -MUnicode::Normalization -e 'print NFC(
...