本文目錄一覽:
如何進行Python編碼轉換
1、python2與python3稍微有點區別 2、python2中默認的字符編碼格式都是unicode,在字符串前加’u’,表示unicode 編碼 3、將unicode轉換成中文,只需要用deconde解碼就可以了 u=’歡迎’ e=u.encode() e b’\xe6\xac\xa2\xe8\xbf\x8e’ …
python3.4 編碼有哪些
Python3中的編碼問題前,第一個段落對字節、ASCII與Unicode與UTF-8等進行基本介紹,如果不對這幾種編碼犯頭暈,可直接跳過。
ASCII與Unicode與UTF-8與GBK
首先從老大哥說起。跟很多人一樣,大學讀了這麼久,久仰ASCII編碼的大名。要說這個老大哥,我們再先從字節說起。一個字節包括八個比特位,每個比特位表示0或1,一個字節即可表示從00000000到11111111共2^8=256個數字。一個ASCII編碼使用一個字節(除去字節的最高位作為作奇偶校驗位),ASCII編碼實際使用一個字節中的7個比特位來表示字符,共可表示2^7=128個字符。比如那時寫C語言的程序,就經常要背下ASCII編碼中的01000001(即十進制的65)表示字符‘A’,01000001加上32之後的01100001(即十進制的97)表示字符‘a’。現在打開Python,調用chr和ord函數,我們可以看到Python為我們對ASCII編碼進行了轉換。
第一個00000000表示空字符,因此ASCII編碼實際上只包括了
字母、標點符號、特殊符號等共127個字符。因為ASCII是在美國出生的,對於由字母組成單詞進而用單詞表達的英文來說也是夠了。但是中國人、日本人、
韓國人等其他語言的人不服了。中文是一個字一個字,ASCII編碼用上了渾身解數256個字符都不夠用。
因此後來出現了Unicode編碼。Unicode編碼通常由兩個字節組成,共表示256*256個字符,即所謂的UCS-2。某些偏僻字還會用到四個字節,即所謂的UCS-4。也就是說Unicode標準也還在發展。但UCS-4出現的比較少,我們先記住:最原始的ASCII編碼使用一個字節編碼,但由於語言差異字符眾多,人們用上了兩個字節,出現了統一的、囊括多國語言的Unicode編碼。
在Unicode中,原本ASCII中的127個字符只需在前面補一個全零的字節即可,比如前文談到的字符‘a’:01100001,在Unicode中變成了00000000 01100001。不久,美國人不開心了,吃上了世界民族之林的大鍋飯,原本只需一個字節就能傳輸的英文現在變成兩個字節,非常浪費存儲空間和傳輸速度。
人們再發揮聰明才智,於是出現了UTF-8編碼。因為針對的是空間浪費問題,因此這種UTF-8編碼是可變長短的,從英文字母的一個字節,到中文的通常的三個字節,再到某些生僻字的六個字節。解決了空間問題,UTF-8編碼還有一個神奇的附加功能,那就是兼容了老大哥的ASCII編碼。一些老古董軟件現在在UTF-8編碼中可以繼續工作。
注意除了英文字母相同,漢字在Unicode編碼和UTF-8編碼中通常是不同的。比如漢字的‘中’字在Unicode中是01001110
00101101,而在UTF-8編碼中是11100100 10111000
10101101。
我們祖國母親自然也有自己的一套標準。那就是GB2312和GBK。當然現在挺少看到。通常都是直接使用UTF-8。記得我唯一一次看到GB編碼的網頁,是一個成人網站。
Python3中的默認編碼
Python3中默認是UTF-8,我們通過以下代碼:
import sys
sys.getdefaultencoding()
可查看Python3的默認編碼。
Python3中的encode和decode
Python3中字符編碼經常會使用到decode和encode函數。特別是在抓取網頁中,這兩個函數用的熟練非常有好處。我的理解,encode的作用,使我們看到的直觀的字符轉換成計算機內的字節形式。decode剛好相反,把字節形式的字符轉換成我們看的懂的、直觀的、“人模人樣”的形式。如下圖。
\x表示後面是十六進制,\xe4\xb8\xad即是二進制的11100100 10111000
10101101。也就是說漢字‘中’encode成字節形式,是11100100 10111000
10101101。同理,我們拿11100100
10111000 10101101也就是\xe4\xb8\xad來decode回來,就是漢字‘中’。完整的應該是b’\xe4\xb8\xad’,在Python3中,以字節形式表示的字符串則必須加上前綴b,也就是寫成上文的b’xxxx’形式。
前文說的Python3的默認編碼是UTF-8,所以我們可以看到,Python處理這些字符的時候是以UTF-8來處理的。因此從上圖可以看到,就算我們通過encode(‘utf-8’)特意把字符encode為UTF-8編碼,出來的結果還是相同:b’\xe4\xb8\xad’。
明白了這一點,同時我們知道UTF-8兼容ASCII,我們可以猜想大學時經常背誦的‘A’對應ASCII中的65,在這裡是不是也能正確的decode出來呢。十進制的65轉換成十六進制是41,我們嘗試下:
b’\x41′.decode()
結果如下。果然是字符‘A’
Python3中的編碼轉換
據說字符在計算機的內存中統一是以Unicode編碼的。只有在字符要被寫進文件、存進硬盤或者從服務器發送至客戶端(例如網頁前端的代碼)時會變成utf-8。但其實我比較關心怎麼把這些字符以Unicode的字節形式表現出來,露出它在內存中的廬山正面目的。這裡有個照妖鏡:
xxxx.encode/decode(‘unicode-escape’)
輸出如下
b’\\u4e2d’還是b’\u4e2d,一個斜杠貌似沒影響。同時可以發現在shell窗口中,直接輸’\u4e2d’和輸入b’\u4e2d’.decode(‘unicode-escape’)是相同的,都會打印出漢字‘中’,反而是’\u4e2d’.decode(‘unicode-escape’)會報錯。說明說明Python3不僅支持Unicode,而且一個‘\uxxxx’格式的Unicode字符可被辨識且被等價於str類型。
如果我們知道一個Unicode字節碼,怎麼變成UTF-8的字節碼呢。懂了以上這些,現在我們就有思路了,先decode,再encode。代碼如下:
xxx.decode(‘unicode-escape’).encode()
測試如下:
可以看到最後輸出的UTF-8字節與上面的相同。嘗試成功。所以其他的編碼之間的轉換,大概也是如此。
最後的擴展
還記得剛剛那個ord嗎。時代變遷,老大哥ASCII被人合併,但ord還是有用武之地。試試ord(‘中’),輸出結果是20013。20013是什麼呢,我們再試試hex(ord(‘中’)),輸出結果是’0x4e2d’,也就是20013是我們在上文見面了無數次的x4e2d的十進制值。這裡說下hex,是用來轉換成十六進制的函數,學過單片機的人對hex肯定不會陌生。
最後的擴展,在網上看到的他人的問題。我們寫下類似於’\u4e2d’的字符,Python3知道我們想表達什麼。但是讓Python讀取某個文件的時候出現了’\u4e2d’,是不是計算機就不認識它了呢?後來下文有人給出了答案。如下:
import codecs
file = codecs.open( “a.txt”, “r”, “unicode-escape” )
u = file.read()
print(u)
python中把ISO-8859-1編碼轉化為UTF-8
當我們爬取一些頁面的中文信息時,會出現如下情況:
爬取的中文編碼格式不是UTF-8,無法正常顯示,查看編碼格式:
先編碼
encode(編碼):按照某種規則將“文本”轉換為“字節流”,unicode轉化為str
decode(解碼):將“字節流”按照某種規則轉換成“文本”,str轉化為unicode
s.decode(‘ ‘):運行會出錯。因為python 3中的str類型對象有點像Python 2中的unicode, 而decode是將str轉為unicode編碼,所以str僅有一個encode方法,調用這個方法後將產生一個編碼後的byte類型的字符。
AttributeError: ‘str’ object has no attribute ‘decode’
AttributeError: ‘bytes’ object has no attribute ‘encode’
Python 編碼轉換與中文處理
python 中的 unicode 是讓人很困惑、比較難以理解的問題. 這篇文章 寫的比較好, utf-8是 unicode的一種實現方式,unicode、gbk、gb2312是編碼字符集.
Python 默認腳本文件都是 ANSCII 編碼的,當文件 中有非 ANSCII 編碼範圍內的字符的時候就要使用” 編碼指示 “來修正一個 module 的定義中,如果.py文件中包含中文字符(嚴格的說是含有非anscii字符),則需要在第一行或第二行指定編碼聲明: # -*- coding=utf-8 -*- 或者 #coding=utf-8
其他的編碼如:gbk、gb2312也可以;否則會出現:
先說一下python中的字符串類型,在python中有兩種字符串類型,分別是 str 和 unicode ,他們都是basestring的派生類;
在str的文檔中有這樣的一句話:
也就是說在讀取一個文件的內容,或者從網絡上讀取到內容時,保持的對象為str類型;如果想把一個str轉換成特定編碼類型,需要把str轉為Unicode,然後從unicode轉為特定的編碼類型如:utf-8、gb2312等。
unicode 轉為 gb2312,utf-8等,使用 encode(encoding)
utf-8,GBK轉換為 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)
普通的 str 轉為 unicode,
如果直接執行s.encode(‘gb2312’)會發生什麼?
這裡會發生一個異常:Python 會自動的先將 s 解碼為 unicode ,然後再編碼成 gb2312。因為解碼是python自動進行的,我們沒有指明解碼方式,python 就會使用 sys.defaultencoding 指明的方式來解碼。很多情況下 sys.defaultencoding 是 ANSCII,如果 s 不是這個類型就會出錯。
拿上面的情況來說,我的 sys.defaultencoding 是 anscii,而 s 的編碼方式和文件的編碼方式一致,是 utf8 的,所以出錯了:
對於這種情況,我們有兩種方法來改正錯誤:
s = ‘中文’
s.decode(‘utf-8’).encode(‘gb2312’) “`
import sys
reload(sys) # Python2.5 初始化後會刪除 sys.setdefaultencoding 這個方法,我們需要重新載入
sys.setdefaultencoding(‘utf-8’)
str = ‘中文’
str.encode(‘gb2312’)
print open(“Test.txt”).read()
import codecs
print open(“Test.txt”).read().decode(“utf-8”)
Traceback (most recent call last):
File “ChineseTest.py”, line 3, in module
print open(“Test.txt”).read().decode(“utf-8”)
UnicodeEncodeError: ‘gbk’ codec can’t encode character u’\ufeff’ in position 0: illegal multibyte sequence
import codecs
data = open(“Test.txt”).read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode(“utf-8”)
s = “中文”
print unicode(s, “utf-8”)
Traceback (most recent call last):
File “ChineseTest.py”, line 3, in module
s = unicode(s, “utf-8”)
UnicodeDecodeError: ‘utf8’ codec can’t decode bytes in position 0-1: invalid data
s = “中文”
print unicode(s, “gbk”)
s = “中文”
print unicode(s, “cp936”)
python編碼轉換
有,b = [i.decode(“utf8”) for i in a]
這樣你轉換後的b就是你想要的列表了,輸出都是u’\…’之類的unicode編碼了
注意, decode裡面的參數我默認你是utf8的,如果報錯了你可以換gbk或者不填
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/249088.html