一、Python中的字元串
在Python中,字元串是一種基本的數據類型,用於存儲和表示文字信息。在Python 3中,字元串是以Unicode編碼方式存儲的。
# 字元串示例 s = "Hello World!" print(s)
二、Python字元串編碼
字元串在傳輸或存儲時需要進行編碼,Python中常用的編碼包括ASCII、UTF-8、GBK等。
1. ASCII編碼
ASCII是一種基礎的編碼方式,只支持英文字母、數字和一些符號,使用7個二進位數字表示一個字元。在Python中,可以使用ord()函數將字元轉換成ASCII碼,使用chr()函數將ASCII碼轉換成字元。
s = "Python" for c in s: print(ord(c)) print(chr(ord(c)))
2. UTF-8編碼
UTF-8是一種Unicode編碼方式,支持全世界幾乎所有語言的字元。在Python中,可以使用encode()函數進行UTF-8編碼,使用decode()函數進行解碼。
s = "中文" b = s.encode('utf-8') print(b) # b'\xe4\xb8\xad\xe6\x96\x87' s2 = b.decode('utf-8') print(s2) # 中文
3. GBK編碼
GBK是一種中國特定的編碼方式,支持中文字元。在Python中,可以使用encode()函數進行GBK編碼,使用decode()函數進行解碼。
s = "中文" b = s.encode('gbk') print(b) # b'\xd6\xd0\xce\xc4' s2 = b.decode('gbk') print(s2) # 中文
三、Python字元串解碼
在讀取文件或者從網路傳輸數據時,經常需要將編碼後的字元串進行解碼。如果編碼和解碼方式不一致,會出現亂碼的情況。
1. UTF-8解碼
b = b'\xe4\xb8\xad\xe6\x96\x87' s = b.decode('utf-8') print(s) # 中文
2. GBK解碼
b = b'\xd6\xd0\xce\xc4' s = b.decode('gbk') print(s) # 中文
四、小結
Python中的字元串編碼和解碼是非常重要的知識點,本文介紹了常用的ASCII、UTF-8和GBK編碼方式,並提供了Python代碼示例。在進行編碼和解碼時需要注意選擇正確的編碼方式,避免出現亂碼。
原創文章,作者:ACLM,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/133845.html