在計算機中，所有的數據在存儲和運算時都要使用二進制數值表示（因為計算機用高電平和低電平分別表示1和0），而具體用哪些二進制數字表示哪個符號，當然每個人都可以約定自己的一套（這就叫編碼），而大家如果要想互相通信而不造成混亂，那麼大家就必須使用相同的編碼規則，這就是統一編碼的原因。簡單來說編碼就是字符與數值的對應關係。下面我們詳細介紹不同編碼的編碼規則和應用。

ASCII編碼

ASCII碼是由美國有關的標準化組織出台的，後來它被國際標準化組織（International Organization for Standardization, ISO）定為國際標準，稱為ISO 646標準。該標準統一規定了常用字符（像a、b、c、d這樣的52個字母（包括大寫）以及0、1等數字還有一些常用的符號（例如：%、!、+等）總共128個字符）如何用二進制數來表示。ASCII分為標準ASCII 碼使用7 位二進制數組合來表示128種字符和擴展ASCII的8 位二進制數組合來表示256種字符。

標準ASCII

0-127所包含的碼稱為標準ASCII編碼，如：空格SPACE是32（二進制00100000），大寫的字母a是97（二進制01100001）。這128個符號（包括32個不能打印出來的控制符號），只佔用了一個位元組(8位)的後7位，最前面的一位統一規定為0。

下面是標準ASCII碼錶：

擴展ASCII碼

後128個稱為擴展ASCII碼。擴展ASCII碼允許將每個字符的第8 位用於確定附加的128 個特殊符號字符、外來語字母和圖形符號；

下面是擴展ASCII碼錶：

在python中可以使用內置函數ord()查看單個字符的ASCII碼，例如：

>>> ord('a')
97

ord() 函數實質是返回字符的 Unicode 碼對應的十進制數值。例如

>>> ord("國")
22269

另外，ord()逆函數chr()查看編碼對應的字符，例如：

>>> chr(97)
'a'
>>> chr(22269)
'國'

GBK

由於ASCII編碼是不支持中文的，但又需要尋求一種編碼方式來支持中文。於是，國人就定義了一套編碼規則：當字符小於127位時，與ASCII的字符相同，但當兩個大於127的字符連接在一起時，就代表一個漢字，第一個位元組稱為高位元組（從0xA1-0xF7）,第二個位元組為低位元組（從0xA1-0xFE）,這樣大約可以組合7000多個簡體漢字。這個規則叫做GB2312。

由於中國漢字很多，有些字還是無法表示，於是重新定義了規則：不在要求低位元組一定是127之後的編碼，只要第一個位元組是大於127，就固定表示這是一個漢字的開始，不管後面跟的是不是擴展字符集里的內容。這種擴展之後的編碼方案稱之為GBK，包含了GB2312的所有內容，同時新增了近20000個新的漢字（包括繁體字）和符號。但是，中國有56個民族,每個民族都有自己的文字，所以，對GBK編碼規則進行了擴展，又加了近幾千個少數民族的字符，再次擴展後得編碼叫做GB18030，GBK字符是被包含在GB18030字符內的，與GBK基本向後兼容。GB18030共收錄漢字70,244個.

Python中使用gbk和gb18030編碼’韓’字：

>>> "韓".encode("gb18030")
b'xbaxab'
>>> "韓".encode("gbk")
b'xbaxab'

ANSI：

為使計算機支持更多的語言，通常使用 0x80~0xFFFF 範圍內的2個位元組來表示1個字符。比如：漢字 ‘中’ 在中文操作系統中，使用0xD6、0xD0這兩個位元組存儲。但不同的國家和地區制定了不同的標準，由此產生了 GB2312、GBK、GB18030、Big5、Shift_JIS 等各自的編碼標準。這些使用多個位元組來代表一個字符的各種延伸編碼方式，被稱為 ANSI 編碼。在簡體中文Windows操作系統為中，ANSI 編碼代表 GBK 編碼；在繁體中文Windows操作系統中，ANSI編碼代表Big5；而在日文Windows操作系統中，ANSI 編碼代表 Shift_JIS 編碼。不同 ANSI 編碼之間互不兼容，當信息在國際間交流時，無法將屬於兩種語言的文字，存儲在同一段 ANSI 編碼的文本中。ANSI編碼表示英文字符時用一個位元組，表示中文用兩個或四個位元組。

Unicode

因為世界上有很多國家，而每個國家都定義一套自己的編碼標準，結果相互之間無法解析編碼進行通信，所以ISO（國際標準化組織）決定定義一套編碼方案來解決所有國家的編碼問題，這個新的編碼方案就叫做Unicode。注意Unicode不是一個新的編碼規則，而是一套字符集（為每一個「字符」分配一個唯一的 ID（學名為碼位 / 碼點 / Code Point）），可以將Unicode理解為一本世界編碼的字典。具體的符號對應表，可以查詢，或者專門的漢字對應表。

在Python中查看字符對應Unicode數值的方法：

>>> "中".encode("unicode_escape")
b'\u4e2d'
>>> b'\u4e2d'.decode("unicode_escape")
'中'

需要注意的是，Unicode 只是一個符號集，它只規定了符號的二進制代碼，卻沒有規定這個二進制代碼應該如何存儲。比如，漢字嚴的 Unicode 是十六進制數4E25，轉換成二進制數足足有15位（1001110 00100101），也就是說，這個符號的表示至少需要2個位元組。表示其他更大的符號，可能需要3個位元組或者4個位元組，甚至更多。這裡就有幾個嚴重的問題，第一個問題是，計算機如何才能區別 Unicode 和 ASCII ？還有計算機怎麼知道三個位元組表示一個符號，而不是分別表示三個符號呢？第二個問題是，我們已經知道，英文字母只用一個位元組表示就夠了，如果 Unicode 統一規定，每個符號用三個或四個位元組表示，那麼每個英文字母前都必然有二到三個位元組是0，這對於存儲或傳輸來說是極大的浪費，文本文件的大小會因此大出二三倍，這是無法接受的。它們造成的結果是：出現了 Unicode 的多種存儲方式，也就是說有許多種不同的二進制格式，可以用來表示 Unicode。也導致了Unicode 在很長一段時間內無法推廣，直到UTF編碼的出現。

UTF-8編碼

由於Unicode比較浪費網絡和硬盤資源，因此為了解決這個問題，就在Unicode的基礎上，定製了一套編碼規則（將「碼位」轉換為位元組序列的規則【編碼/解碼可以理解為加密/解密的過程】），這個新的編碼規則就是UTF-8。UTF-8採用1-4個字符進行傳輸和存儲數據，是一種針對Unicode的可變長度字符編碼，又稱萬國碼。

Unicode與Utf-8編碼規則：使用下面的模板進行互轉

Unicode符號範圍（十六進制） | UTF-8編碼方式(二進制)

————————————————————————

0000 0000-0000 007F | 0xxxxxxx

0000 0080-0000 07FF | 110xxxxx 10xxxxxx

0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx

0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Unicode字符通過對應模板加上標誌位就後是Utf-8編。例如：”迷” Unicode的編碼為 \u8ff7 用二進制表示為：‭10001111 11110111‬，8ff7處於第三個模板範圍內，把10001111 11110111 按模板分成三份 1000 111111 110111，然後加上標誌位的二進制為：11101000 10111111 10110111 所以utf-8編碼是”‭E8BFB7‬”

Python中Unicode字符轉UTF-8編碼：

>>>'迷'.encode('utf-8')
b'xe8xbfxb7'

那麼如何區分utf-8各個字符的？utf-8區分每個字符的開始是根據編碼的高位位元組來區分的，比如：用一個位元組表示的字符，第一個位元組高位以”0″開頭；用兩個位元組表示的字符，第一個位元組的高位為以”110″開頭，後面一個位元組以”10開頭”；用三個位元組表示的字符，第一個位元組以”1110″開頭，後面兩個位元組以”10″開頭；用四個位元組表示的字符，第一個位元組以”11110″開頭，後面的三個位元組以”10″開頭。這樣計算機就可以認出每個字符由幾個位元組組成，才能顯示出正確的信息。

UTF-8和Unicode轉換

比如漢字”智”，utf-8編碼是”xe6x99xba”對應的二進制為：”11100110 10011001 10111010″，由於utf-8中一個漢字是3個位元組，所以對應的模板為：

0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx

11100110 10011001 10111010 | UTF-8編碼成的二進制1110xxxx 10xxxxxx 10xxxxxx | 對應模版 0110 011001 111010 |去除模版中的標誌位後01100110 01111010代表十六進制667A，因此根據規則轉換得出”智”Unicode的編碼為667A。

同樣，根據Unicode中字符的編碼位置，也能找到對應的utf-8編碼。例如：UTF-8編碼：xe8xbfxb7，用二進制表示為：‭11101000 10111111 10110111‬，有3個位元組屬於第三個模板範圍，按模板去掉標誌位後是：1000 111111 110111，結果就是’迷’字的Unicode字符 8ff7。

>>> b'\u8ff7'.decode('unicode_escape')
'迷'

Unicode與GBK編碼的轉換

Unicode 與 GBK 是兩個完全不同的字符編碼方案, 其兩者沒有直接關係。如果要對其進行相

互轉換, 最直接最高效的方法是查詢各自的字符對照表。

Python實現Unicode與GBK轉換（將Unicode對應數值：\u8ff7轉GBK字符方法）：

>>> l_u = b'\u8ff7'.decode('unicode_escape')
>>> l_u.encode('gbk')
b'xc3xd4'

UTF-8、Unicode與GBK的關係

Utf-8（utf-16）====編碼====Unicode=====編碼=====GBK（ANSI）

Utf-8（utf-16）====解碼====Unicode===解碼=======GBK（ANSI）

總結：Unicode字符可以通過編碼可以得到UTF-8和GBK，相反UTF-8和GBK也可以通過解碼得到Unicode，但GBK和UTF-8之間無法直接轉換，只能轉換到Unicode後再轉到另一編碼。其實所謂編碼轉換是數值與字符的轉換。

URL編碼 /解碼

URL編碼就是一個字符ascii碼的十六進制。不過稍微有些變動，需要在前面加上”%”。比如””，它的ascii碼是92，92的十六進制是5c，所以””的URL編碼就是%5c。那麼漢字的URL編碼呢？很簡單，非ASCII字符的編碼一般有兩種，是以GBK或UTF8進行編碼。例如：”迷” 對應的UTF-8編碼xe8xbfxb7，則”胡”的URL編碼是%E8%BF%B7。解碼方法是去掉%，之後再進行UTF-8解碼，就可以得到實際的字符了。

計算機是以什麼編碼存儲和傳輸數據的呢？

支持Unicode的應用程序（python、VS、VC、Google Chrome、notepad等大多數程序都支持（部分程序需要設置編碼）。

不支持Unicode的應用程序（易語言等）則會以控制面板—區域—管理中設置的編碼（ANSI）進行存儲，例如：簡體中文(GBK)、繁體中文(Big5)等。

例如：以國產編程語言『易語言』為例，看一下變量在內存中是以什麼編碼存儲的

a ＝ "你"
調試輸出 (取指針地址_文本型 (a))

* 1966420

通過CE查看此內存地址中對應的值為0000E3C4，而”你”的GBK編碼正好為：E3C4。由此得知，易語言軟件是以GBK編碼進行數據存儲和傳輸的。

再看看數據在內存中如何存儲：

· 使用OD查看

· 使用CE查看

多字符變量”你好啊”的GBK字符：c4e3bac3b0a1

OD:

CE（8位元組顯示）:

由此可以看出，內存的存儲編碼方式與軟件支持的編碼方式是一致的（易語言：GBK字符；python：Unicode字符）；計算機內存數據存儲一般採用大端模式(內存高位對數據低位，內存低位對數據高位) 。OD默認是從內存低位到高位顯示數據，CE默認是從內存高位到低位顯示數據，所以看到的十六進制數值是相反的。存儲佔用的內存大小，會根據變量的數據類型申請對應大小的內存來存儲。

原創文章，作者：投稿專員，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/273960.html