关于编码的这些知识你知道吗?

/ 2020-08-01 / 1140人浏览 / 0人评论

ASCII

ASCII ((American Standard Code for Information Interchange): 美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准,并等同于国际标准ISO/IEC 646。ASCII第一次以规范标准的类型发表是在1967年,最后一次更新则是在1986年,到目前为止共定义了128个字符

如上所述,英文可以用128个字符表示,但是不同语言呢?怎么处理?
已知的是,ASCII编码是一个字节的编码,一个字节最多可以表示256中可能性, 因此就将128--255的这一段空闲编入了新的符号。

但是不同国家有不同的字母,因此,他们只有0-127字符是一致,128-256都是各自国家的编码。

虽然这样可以解决问题,但是我们伟大的中文怎么办呢?以汉字成千上万的量级,一个字节怎么也不可能装的下啊。所以我们需要更多的字节去存储,一个字节 (256) 不行,那就两个 (256*256) ,如果两个还不够,就再加一个 (以此类推) ,这样总能满足情况。所以这样,我们的汉字编码就诞生了^_^

GB2312、GBK、 GB18030

为了汉字处理、汉字通信等系统之间的信息交换 ,这些 汉字编码诞生了

编码 GB2312 GBK GB18030
字节 2个字节 2个字节 4个字节
字符 汉字6763个,
图形字符682个
汉字21003 个,
图形符号 883 个
GB18030-2000收录了27533个汉字
GB18030-2005收录了70244个汉字
汉字分区 01-09区为特殊符号。
16-55区为一级汉字,按拼音排序。
56-87区为二级汉字,按部首/笔画排序。
10-15区及88-94区则未有编码。
举例:“啊”字是GB2312之中的第一个汉字,
它的区位码就是1601。
汉字编码范围为 8140-FEFE,
首字节在 81-FE 之间,
尾字节在 40-FE 之间,
剔除 xx7F 一条线
具体参考:百度词条GB18030
兼容性   兼容GB2312 兼容GBK

编码设计参考下方地址:https://baike.baidu.com/reference/3204518/7633o6U8T3z3GPT0RXsSVggSqqROdqCf6agAsosCIOij2aK5nBTUlCq-5cdco1KTpVNduREA2T7U_mLG4g4h

相关文章

全部评论