Der Unicode-Standard enthält genügend Codepunkte, sodass Sie 4 Bytes benötigen, um alle zu speichern. Das macht die UTF-32-Codierung. Die UTF-8-Codierung drückt diese jedoch irgendwie in viel kleinere Räume, indem sie eine sogenannte "Codierung mit variabler Breite" verwendet.
Tatsächlich gelingt es ihm, die ersten 127 Zeichen von US-ASCII in nur einem Byte darzustellen, das genau wie echtes ASCII aussieht, sodass Sie viele ASCII-Texte so interpretieren können, als wäre es UTF-8, ohne etwas dagegen zu tun. Ordentlicher Trick. Wie funktioniert es?
Ich werde hier meine eigene Frage stellen und beantworten, weil ich nur ein bisschen gelesen habe, um es herauszufinden, und ich dachte, es könnte jemand anderem Zeit sparen. Außerdem kann mich vielleicht jemand korrigieren, wenn ich etwas falsch verstanden habe.