◇计算机中的数据是用二进制表示的,而人们习惯用十进制数,那么输入输出时,符号、英文字母、阿位伯数字等数据就要进行十进制和二进制之间的转换处理,因此,必须采用一种编码的方法,由计算机自己来承担这种识别和转换工作。
◇编码是采用少量基本符号,选用一定的组合原则,以表示大量复杂多样的信息的技术。
◇编码过程就是实现将信息在计算机中转化为0和1二进制串的过程。
美国标准信息交换码:
◇
在西文领域的符号处理普遍采用的是ASCII码(American Standard Code for Information Interchange—美国标准信息交换码),已被国际标准化组织(ISO)认定为国际标准。
◇
字符是计算机中最多的信息形式之一,是人与计算机进行通信、交互的重要媒介。
◇
在计算机中,要为每个字符指定一个确定的编码,作为识别与使用这些字符的依据。◇ASCII码有7位版本和8位版本两种,国际上通用的是7位版本,7位版本的ASCII码有1 2 8个,只需用7个二进制位(2的7次幂=128)表示,其中控制字符34个,阿拉伯数字10个,大小写英文字母52个,各种标点符号和运算符号32个。
◇
在计算机中实际用8位表示一个字符,最高位为“0”字母。可表示128个字符。
◇每个ASCII码以1个字节(Byte)储存,从0到数字127代表不同的常用符号,例如大写A的ASCII码是65,小写a则是97。
第48~57号为0~9阿拉伯数字;65~90号为26个大写英文字母;97~122号为26个小写英文字母。
其余为标点符号、运算符号、控制字符,例如控制符:LF(换行)、BEL(振铃)等。
大写字母A的ASCII码就是十进制数65,数字0的ASCII就是48,小写字母a的ASCII码就是十进制数97
◎比较ASCII码:数字<大写英文字母<小写英文字母

下表中,ASCII是以十进制数表示。
ASCII |
符号 |
ASCII |
符号 |
ASCII |
符号 |
ASCII |
符号 |
0 |
nul |
10 |
nl |
20 |
dc4 |
30 |
re |
1 |
soh |
11 |
vt |
21 |
nak |
31 |
us |
2 |
stx |
12 |
ff |
22 |
syn |
32 |
sp |
3 |
etx |
13 |
er |
23 |
etb |
33 |
! |
4 |
eot |
14 |
so |
24 |
can |
34 |
" |
5 |
enq |
15 |
si |
25 |
em |
35 |
# |
6 |
ack |
16 |
dle |
26 |
sub |
36 |
$ |
7 |
bel |
17 |
dc1 |
27 |
esc |
37 |
% |
8 |
bs |
18 |
dc2 |
28 |
fs |
38 |
& |
9 |
ht |
19 |
dc3 |
29 |
gs |
39 |
` |
ASCII |
符号 |
ASCII |
符号 |
ASCII |
符号 |
ASCII |
符号 |
40 |
( |
40 |
( |
50 |
2 |
60 |
< |
41 |
) |
41 |
) |
51 |
3 |
61 |
= |
42 |
* |
42 |
* |
52 |
4 |
62 |
> |
43 |
+ |
43 |
+ |
53 |
5 |
63 |
? |
44 |
, |
44 |
, |
54 |
6 |
64 |
@ |
45 |
- |
45 |
- |
55 |
7 |
65 |
A |
46 |
. |
46 |
. |
56 |
8 |
66 |
B |
47 |
/ |
47 |
/ |
57 |
9 |
67 |
C |
48 |
0 |
48 |
0 |
58 |
: |
68 |
D |
49 |
1 |
49 |
1 |
59 |
; |
69 |
E |
ASCII |
符号 |
ASCII |
符号 |
ASCII |
符号 |
ASCII |
符号 |
70 |
F |
80 |
P |
90 |
Z |
100 |
d |
71 |
G |
81 |
Q |
91 |
[ |
101 |
e |
72 |
H |
82 |
R |
92 |
\ |
102 |
f |
73 |
I |
83 |
S |
93 |
] |
103 |
g |
74 |
J |
84 |
T |
94 |
^ |
104 |
h |
75 |
K |
85 |
U |
95 |
_ |
105 |
i |
76 |
L |
86 |
V |
96 |
' |
106 |
j |
77 |
M |
87 |
W |
97 |
a |
107 |
k |
78 |
N |
88 |
X |
98 |
b |
108 |
l |
79 |
O |
89 |
Y |
99 |
c |
109 |
m |
ASCII |
符号 |
ASCII |
符号 |
|
|
|
|
110 |
n |
120 |
x |
|
|
|
|
111 |
o |
121 |
y |
|
|
|
|
112 |
p |
122 |
z |
|
|
|
|
113 |
q |
123 |
{ |
|
|
|
|
114 |
r |
124 |
| |
|
|
|
|
115 |
s |
125 |
} |
|
|
|
|
116 |
t |
126 |
~ |
|
|
|
|
117 |
u |
127 |
del |
|
|
|
|
118 |
v |
|
|
|
|
|
|
119 |
w |
|
|
|
|
|
|
汉字编码
◇英文符号由以上所述编码表示即成。但汉字与西方文字不同,英文仅用26个英文字母和其他符号即可拼组成大量的单词、句子,这与计算机可以接受的信息形态和特点基本一致,所以处理起来比较容易。
◇
英文字符在计算机上的输入及输出也非常简单,因此,英文字符的输入、存储、内部处理和输出都可以只用同一个编码(如ASCII码)。
◇
汉字是一种象形文字,字数极多(现代汉字中仅常用字就有六、七千个,总字数高达5万个以上),且字形复杂。
◇
要在计算机中处理汉字,必须解决以下几个问题:首先是汉字的输入,即如何把结构复杂的方块汉字输入到计算机中去,这是汉字处理的关键;其次,汉字在计算机内如何表示和存储?如何与西文兼容?最后,如何将汉字的处理结果从计算机内输出?
◇必须将汉字代码化,即对汉字进行编码,使之转换成键盘上具有的符号,一般是英文字母。
◇
对应于上述汉字处理过程中的输入、内部处理及输出这三个主要环节,每一个汉字的编码都包括输入码、交换码、内部码和字形码。
◇
在计算机的汉字信息处理系统中,处理汉字时要进行如下的代码转换:输入码→交换码→内部码→字形码。
汉字也是字符,与西文字符比较,汉字数量大,字形复杂,同音字多,这就给汉字在计算机内部的存储、传输、交换、输入、输出等带来了一系列的问题。为了能直接使用西文标准键盘输入汉字,必须为汉字设计相应的编码,以适应计算机处理汉字的需要。
国标码
◇1980年我国颁布了《信息交换用汉字编码字符集·基本集》代号为(GB2312-80 ),是国家规定的用于汉字信息处理使用的代码依据,这种编码称为国标码。
◇
在国标码的字符集中共收录了6763个常用汉字和682个非汉字字符(图形、符号),其中一级汉字3755个,以汉语拼音为序排列,二级汉字3008个,以偏旁部首进行排列。用于汉字外码和内部码的交换
国标GB2312-80规定,所有的国标汉字与符号组成一个94×94的矩阵,在此方阵中,每一行称为一个“区” (区号为01~94 ),每一列称为一个“位” (位号为01~94 ),该方阵实际组成了一个94个区,每个区内有94个位的汉字字符集,每一个汉字或符号在码表中都有一个唯一的位置编码,叫该字符的区位码。
区位输入法:使用区位码方法输入汉字时,必须先在表中查找汉字并找出对应的代码,才能输入。区位码输入汉字的优点是无重码,而且输入码与内部编码的转换方便。
机内码
◇内部码是汉字在计算机内的基本表示形式,是计算机对汉字进行识别、存储、处理和传输所用的编码。
◇
汉字的机内码是计算机系统内部对汉字进行存储、处理、传输统一使用的代码,又称为汉字内码。由于汉字数量多,一般用2个字节来存放汉字的内码。在计算机内汉字字符必须与英文字符区别开,以免造成混乱。
◇
英文字符的机内码是用一个字节来存放ASCII码,一个ASCII码占一个字节的低7位,最高位为“0”,为了区分,汉字机内码中两个字节的最高位均置“ 1”。
例如,汉字“中”的国标码为5650H (01010110 01010000)2 ,机内码为D6D0H (1101011 0 11010000 )2 。
汉字输入码(外码)
◇为了将汉字通过键盘输入计算机而设计。
◇
面向用户。
◇五笔输入法的码;拼音输入法的码。各自有自的编码规则。
◇目前,已申请专利的汉字输入编码方案有六、七百种之多,而且还不断有新的输入方法问世,以致于有"万码奔腾"之喻。
◇
可把这些数量众多的输入码归纳为四大类:数字编码、拼音码、字形码和音形码。其中,目前应用最广泛的是拼音码和字形码。
汉字的字形码
◇字形码是表示汉字字形信息(汉字的结构、形状、笔划等)的编码,用来实现计算机对汉字的输出(显示、打印)。
◇
每一个汉字的字形都必须预先存放在计算机内,例如GB2312国标汉字字符集的所有字符的形状描述信息集合在一起,称为字形信息库,简称字库。
◇
通常分为点阵字库和矢量字库。目前汉字字形的产生方式大多是用点阵方式形成汉字,即是用点阵表示的汉字字形代码。
◇
根据汉字输出精度的要求,有不同密度点阵。
◇
汉字字形点阵有16×16点阵、24×24点阵、32×32点阵等。
◇
汉字字形点阵中每个点的信息用一位二进制码来表示,“1”表示对应位置处是黑点,“0”表示对应位置处是空白。字形点阵的信息量很大,所占存储空间也很大,例如16×16点阵,每个汉字就要占32个字节(16×16÷8=32);24×24点阵的字形码需要用72字节(24×24÷8=72),
因此字形点阵只能用来构成“字库”,而不能用来替代机内码用于机内存储。
◇
字库中存储了每个汉字的字形点阵代码,不同的字体(如宋体、仿宋、楷体、黑体等)对应着不同的字库。
◇
在输出汉字时,计算机要先到字库中去找到它的字形描述信息,然后再把字形送去输出。
【TOP】【打印】【关闭】