1、确定编码对象

一,汉字的总字数有6万多,现代汉语常用的也有1万左右。《信息交换用汉字编码字符集基本集》根据各种统计数据确定收入汉字6763个。这些汉字就是一个编码对象的数量级。

二,“大字符集” 包括大陆、台湾、日本、韩国所使用的全部汉字的集合。有20902字。

三,数量不同,有关参数也不同。

汉字编码原理

2、确定码元类型和数量

一,码元是用来作为汉字代码的元素。例如,

二,电报码的码元就是0-9这十个阿拉伯数字。

三,码元的种类和数量与编码容量、以及码长、重码数等指标直接相关。

四,比如电报码,采用十个数目字作码元,四位码长的编码容量至多10000个汉字,从0000到9999。超过1万字就是出现重码,否则就必须增加码长。

汉字编码原理

五,一般的编码方案多采用26个英文字母作码元,

六,也有的在这个基础上再增加10个数目字,使码元数增加到36个的方案,

七,还有的把字母键盘区的其它功能键也利用上的。

八,这种需要增加码元数的方案多数是形码方案。


声明:有的资源均来自网络转载,版权归原作者所有,如有侵犯到您的权益 请联系邮箱:312334557@qq.com 我们将配合处理!

原文地址:《汉字编码原理(汉字编码查询)》发布于2022-07-16 14:38:37