Welche Unicode-Zeichen, Codepunkte und Bereiche außerhalb des BMP (Basic Multilingual Plane) sind Ihrer Erfahrung nach bisher am häufigsten? Dies sind diejenigen, die 4 Bytes in UTF-8 oder Ersatzbytes in UTF-16 benötigen.
Ich hätte erwartet, dass die Antwort chinesische und japanische Zeichen sind, die in Namen verwendet werden, aber nicht in den am weitesten verbreiteten CJK-Multibyte-Zeichensätzen enthalten sind, aber bei dem Projekt, an dem ich am meisten arbeite, dem englischen Wiktionary, haben wir festgestellt, dass das gotische Alphabet ist bisher weitaus häufiger.
AKTUALISIEREN
Ich habe ein paar Software-Tools geschrieben, um ganze Wikipedias nach Nicht-BMP-Zeichen zu durchsuchen, und zu meiner Überraschung festgestellt, dass selbst in der japanischen Wikipedia das gotische Alphabet am häufigsten vorkommt. Dies gilt auch für die chinesische Wikipedia, aber es wurden auch viele chinesische Schriftzeichen bis zu 50 oder 70 Mal verwendet, einschließlich "𨭎", "𠬠" und "𩷶".