Zunächst basiert alles auf US-ASCII, einem 7-Bit-Code mit 128 Codepunkten im Satz, nummeriert mit hex 00 bis 7F oder dezimal 0-127. Dies ist Steuercodes, englischen alphanumerischen Zeichen und grundlegenden Interpunktionszeichen zugeordnet
Wenn Sie 1 Bit für einen 8-Bit-Code (Byte) hinzufügen, erhalten Sie weitere 128 Codepunkte oder Extended ASCII.
Zeichensätze / Codepages waren frühzeitig erforderlich, um zu ändern, wie die Codepunkte in den oberen 128 Bits auf Zeichen abgebildet werden, um das Alphabet für die bestimmte Sprache abzudecken, die Sie darstellen möchten. Dies funktioniert für die meisten westeuropäischen Sprachen recht gut. ISO 8859-1 / Latin-1 ist ein Beispiel für einen solchen Zeichensatz. Ein anderes ist Windows-1252, das Änderungen gegenüber ISO 8859-1 aufweist, um mehr oder andere Zeichen abzudecken.
Sprachen mit komplexeren Zeichensätzen wie Chinesisch, Japanisch und Koreanisch übertreffen die Funktionen des 256-Code-Punktsatzes und verwenden einen Doppelbyte-Code, um ihre Darstellung zu ermöglichen.
Unicode UTF-8 ist ein Mehrbyte-Zeichencodierungsschema (1-4 Byte), dessen erste 128 Zeichen die Abwärtskompatibilität mit ISO 8859-1 / Latin-1 sind. Es bietet Platz für über 1 Million Codepunkte, was bedeutet, dass jeder Codepunkt tatsächlich ein Zeichen darstellen kann, im Gegensatz zum Herumspielen mit Extended ASCII, was bedeutet, dass ein Codepunkt je nach Zeichensatz / Codepage / einem anderen Zeichen zugeordnet wird. Codierung.
Schriftarten sind Glyphen, die Codepunkten zugeordnet sind und Zeichen visuell darstellen. Der Inhalt einer Schriftart hängt davon ab, welche Sprachen sie ursprünglich abdecken sollte. Mithilfe der Zeichentabelle können Sie sehen, welche Glyphen in der Schriftart enthalten sind.
Unicode-Schriftarten decken nicht unbedingt alle Codepunkte ab. Sie müssen sehen, wo sie verwendet werden sollen. Zum Beispiel in Windows 7, Feuer Zeichentabelle und sehen Sie die Zeichen in Calibri und sie dann zu Ebrima, Meiryo und Raavi vergleichen. Beachten Sie, dass sie sehr unterschiedlich sind, da jede auf eine andere geografische Region zugeschnitten ist.
In Bezug auf Unicode-Schriftarten und den Windows-1252-Zeichensatz verwendet Windows eine Zuordnungstabelle, um Windows-1252 in Unicode zu übersetzen, wo es nicht mit ISO 8859-1 für ein "Best Fit" -Szenario übereinstimmt, in dem einige Zeichen im Windows-1252-Zeichen enthalten sind Set wird möglicherweise nicht angezeigt.