Ich weiß, dass diese Frage alt ist und bereits eine akzeptierte Antwort hat, aber ich möchte einige Beispiele anbieten (in der Hoffnung, dass sie für jemanden nützlich sein wird).
Soweit ich weiß, haben alte ASCII-Zeichen ein Byte pro Zeichen benötigt.
Richtig. Da es sich bei ASCII um eine 7-Bit-Codierung handelt, werden 128 Codes unterstützt (von denen 95 druckbar sind), sodass nur ein halbes Byte verwendet wird (sofern dies sinnvoll ist).
Wie viele Bytes benötigt ein Unicode-Zeichen?
Unicode ordnet nur Zeichen Codepunkten zu. Es definiert nicht, wie sie codiert werden sollen. Eine Textdatei enthält keine Unicode-Zeichen, sondern Bytes / Oktette, die Unicode-Zeichen darstellen können.
Ich gehe davon aus, dass ein Unicode-Zeichen jedes mögliche Zeichen aus einer beliebigen Sprache enthalten kann - bin ich richtig?
Nein, aber fast. Also im Grunde ja. Aber immer noch nein.
Wie viele Bytes benötigt es pro Zeichen?
Gleich wie deine 2. Frage.
Und was bedeuten UTF-7, UTF-6, UTF-16 usw.? Sind sie eine Art Unicode-Versionen?
Nein, das sind Kodierungen. Sie definieren, wie Bytes / Oktette Unicode-Zeichen darstellen sollen.
Ein paar Beispiele. Wenn einige davon nicht in Ihrem Browser angezeigt werden können (wahrscheinlich, weil die Schriftart sie nicht unterstützt), gehen Sie zu http://codepoints.net/U+1F6AA
(durch 1F6AA
den Codepunkt in Hex ersetzen ), um ein Bild anzuzeigen .
- U + 0061 LATEINISCHER KLEINBUCHSTABE A:
a
- Nr.: 97
- UTF-8: 61
- UTF-16: 00 61
- U + 00A9 COPYRIGHT-ZEICHEN:
©
- Nr.: 169
- UTF-8: C2 A9
- UTF-16: 00 A9
- U + 00AE REGISTRIERTES ZEICHEN:
®
- Nr.: 174
- UTF-8: C2 AE
- UTF-16: 00 AE
- U + 1337 ÄTHIOPISCH SYLLABLE PHWA:
ጷ
- Nr.: 4919
- UTF-8: E1 8C B7
- UTF-16: 13 37
- U + 2014 EM DASH:
—
- Nr.: 8212
- UTF-8: E2 80 94
- UTF-16: 20 14
- U + 2030 PRO MILLE-ZEICHEN:
‰
- Nr.: 8240
- UTF-8: E2 80 B0
- UTF-16: 20-30
- U + 20AC EURO ZEICHEN:
€
- Nr.: 8364
- UTF-8: E2 82 AC
- UTF-16: 20 AC
- U + 2122 MARKENZEICHEN:
™
- Nr.: 8482
- UTF-8: E2 84 A2
- UTF-16: 21 22
- U + 2603 SNOWMAN:
☃
- Nr.: 9731
- UTF-8: E2 98 83
- UTF-16: 26 03
- U + 260E SCHWARZES TELEFON:
☎
- Nr.: 9742
- UTF-8: E2 98 8E
- UTF-16: 26 0E
- U + 2614 REGENSCHIRM MIT REGENTROPFEN:
☔
- Nr.: 9748
- UTF-8: E2 98 94
- UTF-16: 26 14
- U + 263A WEISSES LÄCHELN:
☺
- Nr.: 9786
- UTF-8: E2 98 BA
- UTF-16: 26 3A
- U + 2691 SCHWARZE FLAGGE:
⚑
- Nr.: 9873
- UTF-8: E2 9A 91
- UTF-16: 26 91
- U + 269B ATOM SYMBOL:
⚛
- Nr.: 9883
- UTF-8: E2 9A 9B
- UTF-16: 26 9B
- U + 2708 FLUGZEUG:
✈
- Nr.: 9992
- UTF-8: E2 9C 88
- UTF-16: 27 08
- U + 271E SHADOWED WHITE LATIN CROSS:
✞
- Nr.: 10014
- UTF-8: E2 9C 9E
- UTF-16: 27 1E
- U + 3020 POSTMARKENGESICHT:
〠
- Nr.: 12320
- UTF-8: E3 80 A0
- UTF-16: 30 20
- U + 8089 CJK UNIFIED IDEOGRAPH-8089:
肉
- Nr.: 32905
- UTF-8: E8 82 89
- UTF-16: 80 89
- U + 1F4A9 POO-STAPEL:
💩
- Nr.: 128169
- UTF-8: F0 9F 92 A9
- UTF-16: D8 3D DC A9
- U + 1F680 RAKETE:
🚀
- Nr.: 128640
- UTF-8: F0 9F 9A 80
- UTF-16: D8 3D DE 80
Okay, ich werde mitgerissen ...
Wissenswertes: