zxq997

2018-10-18   阅读量: 770

数据分析师 Python编程

python3 字符集编码

扫码加入数据分析学习群

ASCII 编码

计算机是美国人发明的,所以,最早只有 127 个大小写字母、数字和一些符号进入了编码体系,这套编码就是 ASCII 码。

ASCII 编码的局限性是该编码只解决了将英语转化为计算机能理解的语言的问题,对于中文、日文、韩文、等等其他语言的转换,会出现乱码,为了解决乱码的国际问题,有了 Unicode 编码。

Unicode 编码

Unicode 编码把所有语言都统一到一套编码里面,这样就不会有乱码的问题了。python3 内部使用的就是 unicode 编码

但是随之而来的新问题是,Unicode 编码比 ASCII 编码需要多一倍的存储空间(原理在此不阐述,我也不懂,有兴趣可以问问度娘),那么在存储和传输上面就不划算,为了解决这个问题,又将 Unicode 编码转化为 UTF-8 编码。

UTF-8 编码

因为解决了大部分语言编码的问题,又被称为万国码。

能将各个国家的各种语言随意转换。

GBK 编码

GBK全称《汉字内码扩展规范》,属于国家标准。

添加CDA认证专家【维克多阿涛】,微信号:【cdashijiazhuang】,提供数据分析指导及CDA考试秘籍。已助千人通过CDA数字化人才认证。欢迎交流,共同成长!
0.0169 1 3 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子