Es ist sehr schön, einfachen Text in Anführungszeichen oder Zeichen im Quellcode eingeben zu können und das tatsächliche Zeichen zu sehen. Zum Beispiel sind das pi-Symbol 'π' oder das Ideogramm '𠀊' viel schöner als das Äquivalent '\ u3c0' für pi und L '\ u2000A' für das Ideogramm.
Es ist möglich, diese Zeichen wie ASCII-Zeichen in einem anständigen Editor direkt in den Quellcode einzugeben und / oder zu kopieren und einzufügen.
Ich finde konkrete Beispiele hilfreich, um Dinge zu konzipieren und zu verstehen, die Wortbeschreibungen manchmal nicht nach Hause zu bringen scheinen. Konzeptualisieren Sie in den Quellcode eingegebene Unicode-Zeichenkonstanten, z. B. das folgende kurze Beispielcode-Snippet:
const unsigned char ASCII_0X7E = (unsigned char) '~';
const unsigned short UNICODE_0X3C0 = (unsigned short) 'π';
const unsigned long UNICODE_0X2000A = (unsigned long) '𠀊';
const unsigned long UNICODE_0X2893D = (unsigned long) '𨤽';
Das ASCII-Tilde-Zeichen '~' kann in einer ASCII- oder UTF-8-Quelldatei gespeichert werden, die Unicode-Zeichen können jedoch nicht in ASCII-Form gespeichert werden. Das PI-Symbol 'π' ist der Unicode-Codepunkt 0x3c0 und kann in UTF-8-Form als Zwei-Byte-Wert 0xcf, 0x80 gespeichert werden. Die Ideogramme an den Unicode-Codepunkten 0x2000a und 0x2893d erfordern 4-Byte-UTF-8-Sequenzen.
Damit diese Zeichen ihre beabsichtigten Werte beibehalten und der Compiler sie wie beabsichtigt interpretieren kann, muss der Quellcode in einem Format gespeichert werden, das den Unicode-Zeichensatz unterstützt, z. B. UTF-8 oder UTF-16. Wenn es als UTF-8 gespeichert wird, versteht und interpretiert ein anständiger Compiler die Werte wie beabsichtigt, und ein anständiger Editor lädt die Zeichen und zeigt sie ordnungsgemäß an.
Wie andere bereits betont haben, führt das Speichern als UTF-8 zu einer Datei, die sich nicht vom Speichern einer ASCII-Datei unterscheidet, da UTF- 8 ist so konzipiert, dass ASCII im ASCII-Zeichenbereich überlappt. Sobald Sie ein Zeichen in Ihren Quellcode eingeben, das außerhalb des ASCII-Bereichs liegt, werden Sie von einem anständigen Editor darüber informiert, dass Sie eine Codierung auswählen müssen, die zum Speichern der Datei verwendet werden soll. UTF-8 ist eine gute Wahl, da es ASCII unverändert verarbeiten kann und praktisch jedes andere Zeichen in Ihrer Entwicklungsumgebung unterstützt wird.