U + 4E00..U + 9FFF ist Teil des kompletten Satzes, aber nicht alle
U + 4E00..U + 9FFF ist Teil des kompletten Satzes, aber nicht alle
Antworten:
Möglicherweise finden Sie eine vollständige Liste in den CJK-Unicode-FAQ (einschließlich "chinesischer, japanischer und koreanischer" Zeichen).
Das Dokument " East Asian Script " erwähnt:
Blöcke mit Han-Ideogrammen
Han-ideografische Zeichen befinden sich in fünf Hauptblöcken des Unicode-Standards (siehe Tabelle 12-2)
Tabelle 12-2. Blöcke mit Han-Ideogrammen
Block Range Comment
CJK Unified Ideographs 4E00-9FFF Common
CJK Unified Ideographs Extension A 3400-4DBF Rare
CJK Unified Ideographs Extension B 20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C 2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D 2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E 2B820–2CEAF Rare, historic
CJK Compatibility Ideographs F900-FAFF Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants
Hinweis: Die Blockbereiche können sich im Laufe der Zeit ändern: Die neueste Version ist in CJK Unified Ideographs enthalten .
Siehe auch Wikipedia:
Unicode hat derzeit 74605 CJK-Zeichen. CJK-Zeichen umfassen nicht nur Zeichen, die von Chinesen verwendet werden, sondern auch japanische Kanji, koreanische Hanja und vietnamesische Chu Nom . Einige CJK-Zeichen sind keine chinesischen Zeichen.
Codepunkte U + 4E00 bis U + 9FCC.
Codepunkte U + 3400 bis U + 4DB5 . Unicode 3.0 (1999).
Codepunkte U + 20000 bis U + 2A6D6. Unicode 3.1 (2001).
Codepunkte U + 2A700 bis U + 2B734 . Unicode 5.2 (2009).
Codepunkte U + 2B740 bis U + 2B81D . Unicode 6.0 (2010).
Wenn das oben Genannte nicht genug Spaghetti ist, schauen Sie sich bekannte Probleme an . Viel Spaß =)
Die genauen Bereiche für chinesische Schriftzeichen (mit Ausnahme der Erweiterungen) sind [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
.
CJK Radicals Supplement ist ein Unicode-Block, der alternative, häufig positionelle Formen der Kangxi-Radikale enthält. Sie werden als Überschriften in Wörterbuchindizes und anderen CJK-Ideografiesammlungen verwendet, die nach radikalen Strichen organisiert sind.
Kanbun ist ein Unicode-Block, der Anmerkungszeichen enthält, die in japanischen Kopien klassischer chinesischer Texte verwendet werden, um die Lesereihenfolge anzuzeigen.
CJK Unified Ideographs Extension-A ist ein Unicode-Block, der seltene Han-Ideogramme enthält.
CJK Unified Ideographs ist ein Unicode-Block, der die häufigsten CJK-Ideogramme enthält, die im modernen Chinesisch und Japanisch verwendet werden.
CJK Compatibility Ideographs ist ein Unicode-Block, der erstellt wurde, um Han-Zeichen zu enthalten, die an mehreren Stellen in anderen festgelegten Zeichencodierungen zusätzlich zu ihren CJK Unified Ideographs-Zuweisungen codiert wurden, um die Round-Trip-Kompatibilität zwischen Unicode und diesen Codierungen beizubehalten.
Einzelheiten finden Sie hier . Die Erweiterungen finden Sie in anderen Antworten.
Unicode Version 11.0.0
In Unicode haben die chinesischen, japanischen und koreanischen (CJK) Skripte einen gemeinsamen Hintergrund, der zusammen als CJK-Zeichen bezeichnet wird.
Diese Bereiche enthalten häufig nicht zugewiesene oder reservierte Codepunkte (wie U + 2E9A , U + 2EF4 - 2EFF).
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
Daher ist der Bereich
[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]
Sie sind Common Han, die nur aus Kompatibilitätsgründen verwendet werden.
Es ist fast unmöglich, sie in chinesischen Büchern, Artikeln, Schriften usw. zu sehen.
Alle Zeichen hier haben ein entsprechendes glyphenidentisches chinesisches Zeichen. Wie 金 (U + F90A) und 金 (U + 91D1) sind sie in Glyphe identisch.
F900 FAFF https://www.unicode.org/charts/PDF/UF900.pdf CJK Compatibility Ideographs
2F800 2FA1F https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement
2E80 2EFF http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement
2F00 2FDF http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals
2FF0 2FFF https://unicode.org/charts/PDF/U2FF0.pdf Ideographic Description Character
3000 303F https://www.unicode.org/charts/PDF/U3000.pdf CJK Symbols and Punctuation
3100 312f https://unicode.org/charts/PDF/U3100.pdf Bopomofo
31A0 31BF https://unicode.org/charts/PDF/U31A0.pdf Bopomofo Extended
31C0 31EF http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200 32FF https://unicode.org/charts/PDF/U3200.pdf Enclosed CJK Letters and Months
3300 33FF https://unicode.org/charts/PDF/U3300.pdf CJK Compatibility
FE30 FE4F https://www.unicode.org/charts/PDF/UFE30.pdf CJK Compatibility Forms
FF00 FFEF https://www.unicode.org/charts/PDF/UFF00.pdf Halfwidth and Fullwidth Forms
1F200 1F2FF https://www.unicode.org/charts/PDF/U1F200.pdf Enclosed Ideographic Supplement
Dies ist ein breiter Bereich, einige Satzzeichen werden möglicherweise nie verwendet, einige Satzzeichen, wie ……”“
sie auf Chinesisch so häufig verwendet werden.
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
Es gibt auch viele chinesische Symbole, wie Yijing Hexagram Symbole oder Kanbun , aber es ist trotzdem nicht zum Thema. Ich schreibe nicht-chinesische Zeichen in CJK, um besser zu erklären, was chinesische Zeichen sind. Die oben genannten Bereiche decken bereits fast alle Zeichen ab, die in der chinesischen Schrift erscheinen, mit Ausnahme von Mathematik und anderen Spezialnotationen.
CJK-Symbole und Interpunktion
、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿
Formulare mit halber und voller Breite
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○
Die Unicode-Codeblöcke, die die anderen Antworten gaben, decken sicherlich die meisten chinesischen Unicode-Zeichen ab, aber sehen Sie sich auch einige dieser anderen Codeblöcke an.
CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS
Siehe meine ausführlichere Diskussion hier . Und diese Seite ist praktisch zum Durchsuchen von Unicode.
Zusammenfassend klingt es so:
var blocks = [
[0x3400, 0x4DB5],
[0x4E00, 0x62FF],
[0x6300, 0x77FF],
[0x7800, 0x8CFF],
[0x8D00, 0x9FCC],
[0x2e80, 0x2fd5],
[0x3190, 0x319f],
[0x3400, 0x4DBF],
[0x4E00, 0x9FCC],
[0xF900, 0xFAAD],
[0x20000, 0x215FF],
[0x21600, 0x230FF],
[0x23100, 0x245FF],
[0x24600, 0x260FF],
[0x26100, 0x275FF],
[0x27600, 0x290FF],
[0x29100, 0x2A6DF],
[0x2A700, 0x2B734],
[0x2B740, 0x2B81D]
]