1.汉字信息的编码知识
⑴国标码:是指我国1981年公布的“中华人民共和国国家标准信息交换汉字编码”,代号为“GB2312-80”。由连续的两个字节组成。
2.机内码:在计算机内表示汉字的代码是汉字机内码,汉字机内码由国标码演化而来,把表示国标码的两个字节的最高位分别加“1”,就变成汉字机内码
3.输入码: 汉字输入码是指直接从键盘输入的各种汉字输入方法的编码,属于外码。
4.字型点阵码:用点阵方式来构造汉字字型,然后存储在计算机内,构成汉字字模库。目的是为了能显示和打印汉字。
编码的转换举例
汉字 区位码 16进制 国标码 机内码
文 4636 2E24H 4E44H CEC4H
“文”的区位码为4636,区码和位码分别用16进制表示即为“2E24H”, 0010 1110 0010 0100
转换成国标码“4E44H”,0100 1110 0100 0100
机内码为“CEC4H”, 1100 1110 1100 0100
回答时间:2006-09-12 11:50:48
计算机只识别由0、1组成的代码,ASCII码是英文信息处理的标准编码,汉字信息处理也必须有一个统一的标准编码。我国国家标准局于1981年5月颁布了《信息交换用汉字编码字符集——基本集》,代号为GB2312-80,共对6763个汉字和682个图形字符进行了编码,其编码原则为:汉字用两个字节表示,每个字节用七位码(高位为0),;国家标准将汉字和图形符号排列在一个94行94列的二维代码表中,;每两个字节分别用两位十进制编码,前字节的编码称为区码,后字节的编码称为位码,此即区位码,;如“保”字在二维代码表中处于17区第3位,区位码即为“1703 ”。
国标码并不等于区位码,它是由区位码稍作转换得到,其转换方法为:先将十进制区码和位码转换为十六进制的区码和位码,;这样就得了一个与国标码有一个相对位置差的代码,;再将这个代码的第一个字节和第二个字节分别加上20H,就得到国标码。如:“保”�字的国标码为3123H,它是经过下面的转换得到的:1703D-1103H-+20H-3123H。
国标码是汉字信息交换的标准编码,但因其前后字节的最高位为0,与ASCII码发生冲突,如“保”�字,国标码为31H和23H,而西文字符“1”和“#”的SCII也为31H和23H,现假如内存中有两个字节为31H和23H,;这到底是一个汉字�,还是两个西文字符“1”;和“#”?于是就出现了二义性,显然,国标码是不可能在计算机内部直接采用的,于是,;汉字的机内码采用变形国标码,其变换方法为:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变,如:由上面我们知道,“保”字的国标码为3123H,前字节为00110001B,后字节为00100011B,高位改1为10110001B和10100011B 即为B1A3H,因此,�字的机内码就是B1A3H;。
??汉字在计算机上的编码主要有三种:输入码、机,内码和输出码,1.用于输入的汉字的编码——输入码(外码)
??计算机上输入汉字的方法很多,如键盘编码输入、语音输入、手写输入、扫描输入等,其中键盘编码输入是最容易实现和最常用的一种汉字输入方法。英文等可以用键盘上的每个字母键来输入,而输入汉字则不同,不可能用有限的按键来对应每一个汉字,为了让用户能直接使用英文键盘输入汉字,于是就有了输入汉字时使用的汉字输入码,它一般由键盘上的字母或数字组成,代表某个汉字或某些汉字、词组或句子。当前用于汉字输入的编码方案很多,如区位码、拼音码、王码(五笔字型)、自然码等。2.用于储存汉字的编码——机内码(内码)
由于汉字输入码的编码方案多种多样,同一个汉字如果采用的编码方案不一样,其输入码就有可能不一样。如果计算机内部存放的是汉字输入码本身,就会造成相同汉字在机内可以用不同的编码表示,这样显然不合理,也给计算机内部的汉字处理增加了难度。为了将汉字的各种输入码在计算机内部统一起来,就引进了汉字的机内码。3.用于输出汉字的编码——输出码(字型码)
存储在计算机内的汉字在屏幕上显示或在打印机上打印出来时,必须以汉字字形输出,才能被人们所接受和理解。汉字的输出码实际上是汉字的字型码,它是由汉字的字模信息所组成的。汉字是一种象形文字,每个汉字东可以看成一个特定的图形,这种图形可以用点阵、向量等方式表示,而最基本的是用点阵表示。所谓点阵方式,就是将汉字分解成由若干个“点”??组成的点阵字型,将此点阵字型至于网状方格上,每个方各试点阵中的一个“点”。
(区位码的十六进制表示)+2020H=国标码。
区位码、国标码与机内码的转换关系方法:
(1)区位码先转换成十六进制数表示
(2)(区位码的十六进制表示)+2020H=国标码;
(3)国标码+8080H=机内码
举例:以汉字“大”为例,“大”字的区内码为2083
解:
1、区号为20,位号为83
2、将区位号2083转换为十六进制表示为1453H
3、1453H+2020H=3473H,得到国标码3473H
4、3473H+8080H=B4F3H,得到机内码为B4F3H
扩展资料
1980年,为了使每个汉字有一个全国统一的代码,我国颁布了汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。
国标码是一个四位十六进制数,区位码是一个四位的十进制数,每个国标码或区位码都对应着一个唯一的汉字或符号,但因为十六进制数我们很少用到,所以大家常用的是区位码,它的前两位叫做区码,后两位叫做位码。
参考资料来源:百度百科-区位码