
王老师为您分享以下优质知识
汉字代码是用于将汉字转换为计算机可识别二进制数据的编码方式,主要分为以下几类:
一、主要编码标准
- 最早的汉字编码标准,仅包含简体中文字符(6763个),是后续扩展的基础。
- 使用两个7位二进制数表示一个汉字,对应94×94的二维代码表。
GBK
- GB2312的扩展版,增加了繁体中文字符及部分生僻字,共收录6763+256=9319个汉字。
- 与ASCII码兼容,但通过修改国标码高位实现区分。
GB18030
- 覆盖所有中文字符(包括简/繁体及少数民族文字),共收录7445个汉字。
- 是目前最全面的汉字编码标准。
Unicode
- 国际标准,支持全球所有语言字符,采用变长编码(1-4个代码单元)。
- 常见实现包括UTF-8、UTF-16等编码方式。
二、编码结构与转换
区位码:
将汉字按汉语拼音排序,同音字按笔画排序,每个汉字对应一个四位的十进制数(区码+位码)。
国标码:区位码转换为十六进制后加20H(0x14),用于汉字信息交换。
机内码:国标码每个字节加128(0x80),解决与ASCII冲突,如“保”字机内码为B1A3H。
三、应用场景
输入法:如五笔、拼音等,将汉字转换为机内码后输入。
存储与传输:通过统一编码实现多系统兼容。
四、扩展说明
汉字数量:常用汉字(一级)约3755个,二级汉字682个,扩展到GB18030后总数达7445个。
编码冲突解决:通过机内码变形(加128)避免与ASCII冲突。
以上编码标准覆盖了不同场景需求,实际应用中根据具体需求选择合适标准。