ASCII ((American Standard Code for Information Interchange): 美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准,并等同于国际标准ISO/IEC 646。ASCII第一次以规范标准的类型发表是在1967年,最后一次更新则是在1986年,到目前为止共定义了128个字符
如上所述,英文可以用128个字符表示,但是不同语言呢?怎么处理?
已知的是,ASCII编码是一个字节的编码,一个字节最多可以表示256中可能性, 因此就将128--255的这一段空闲编入了新的符号。
但是不同国家有不同的字母,因此,他们只有0-127字符是一致,128-256都是各自国家的编码。
虽然这样可以解决问题,但是我们伟大的中文怎么办呢?以汉字成千上万的量级,一个字节怎么也不可能装的下啊。所以我们需要更多的字节去存储,一个字节 (256) 不行,那就两个 (256*256) ,如果两个还不够,就再加一个 (以此类推) ,这样总能满足情况。所以这样,我们的汉字编码就诞生了^_^
为了汉字处理、汉字通信等系统之间的信息交换 ,这些 汉字编码诞生了
编码 | GB2312 | GBK | GB18030 |
字节 | 2个字节 | 2个字节 | 4个字节 |
字符 | 汉字6763个, 图形字符682个 |
汉字21003 个, 图形符号 883 个 |
GB18030-2000收录了27533个汉字 GB18030-2005收录了70244个汉字 |
汉字分区 | 01-09区为特殊符号。 16-55区为一级汉字,按拼音排序。 56-87区为二级汉字,按部首/笔画排序。 10-15区及88-94区则未有编码。 举例:“啊”字是GB2312之中的第一个汉字, 它的区位码就是1601。 |
汉字编码范围为 8140-FEFE, 首字节在 81-FE 之间, 尾字节在 40-FE 之间, 剔除 xx7F 一条线 |
具体参考:百度词条GB18030 |
兼容性 | 兼容GB2312 | 兼容GBK |
全部评论