Python编码是什么?_CDA答疑社区

在编写python程序的过程中，中英文混用经常会出现编码问题。围绕此问题，本文首先介绍编码的含义及常用编码，随后列举几个python经常遇到的编码异常及解决方法，接着列举笔者在实践中遇到的异常出现的情景及原因，最后针对编码问题提出最佳实践。

一常见编码

1.1 unicode编码

在文本文件中，看到的所有字符，包括中文，都需要在计算机中存储，而计算机只能存储0和1这样的二进制位，所以需要一种方法，将字符映射成数字，然后将数字转化为二进制位存储在计算机中。针对字符和数字的映射的问题，产生了unicode编码，unicode将世界上的所有字符映射为唯一的数字。unicode数字并不是直接就可以转化为二进制存储，比如假设中文字符‘中’映射为数字1（00000001），‘国’映射为数字2（00000010），由于汉字很多，单字节并不能表示完所有的汉字，故可能会有汉字的unicode数字为258（00000001 00000010），假设为‘京’，现在在字符串中碰到存储为00000001 00000010的二进制串，不能区分出其实际代表的是“中国”还是“京”。

针对unicode数字和二进制的映射问题，有两种解决方法：一种是每个unicode数字用固定宽度的二进制位表示，比如都用两字节，由此产生了ASCII、GB2312、GBK编码；另一种是存储的二进制位除了表示数字之外，还表示每个unicode数字的长度，由此产生了utf-8编码。

1.2 ASCII编码

ASCII编码用单字节表示字符，最高位固定为0，故最多只能表示128个字符，当编程只涉及到英文字符或数字时，不涉及中文字符时，可以使用ASCII编码。

1.3 GB2312编码、GBK

GB(GuoBiao)为国标，GBK(GuoBiao Kuozhan)表示国标扩展。GB2312兼容ASCII编码，对于ASCII可以表示的字符，如英文字符‘A’、‘B’等，在GB2312中的编码和ASCII编码一致，占一个字节，对于ASCII不能表示的字符，GB2312用两个字节表示，且最高位不为0，以防和ASCII字符冲突。例如：‘A’在GB2312中存储的字节十六进制为41，在ASCII中也是41，中文字符‘中’在GB2312中存储的两个字节十六进制为D6D0，最高位为1不为0。

GB2312只有6763个汉字，而汉字特别多。GBK属于GB2312的扩展，增加了很多汉字，同时兼容GB2312，同样用两个字节表示非ASCII字符。

1.4 UTF-8编码

和GB系列不同，UTF-8可以将全世界所有的unicode数字表示出来。UTF-8兼容ASCII编码，不兼容GB系列编码，因此，若文本中UTF-8和GB系列编码混用，会出现乱码问题。UTF-8对于每个字符的存储，用最高二进制位开始连续1的个数表示字的长度，最高位为0表示单字节，用来兼容ASCII字符，为110表示双字节，非字符首字节的字节都以10开始，如下表格所示。例如：字符‘中’的unicode编码为2D4E(00101101 01001110),用UTF-8存储的二进制为E4B8AD(11100100 10111000 10101101 )，存储在计算机中的首字节为1110开头，表示此字符占三个字节，去掉开始字节表示长度的1110和其余字节开头的10，可以得到01001110 00101101(4E2D)，可以看到和unicode数字刚好相反，是因为是大端存储方式，高字节存储在内存中的低地址端，反过来即为unicode编码。

一 常见编码

1.1 unicode编码

1.2 ASCII编码

1.3 GB2312编码、GBK

1.4 UTF-8编码

一常见编码