編碼以及python中的編碼（python用的什麼編碼）

本文目錄一覽：

1、python編程（三級）1、編碼、數制
2、python是什麼編碼格式
3、Python基本編碼格式
4、python3.4 編碼有哪些

python編程（三級）1、編碼、數制

在計算機中使用的是二進位，（為什麼呢，因為二進位計算簡單，可以用電路表示等等很多優點）。但是二進位對閱讀和使用是不友好的，因此需要將二進位轉換為人類使用的語言，英語，中文等，這就是編碼。

最初的編碼就是ASCII編碼，美國信息交換碼。它使用一個位元組，8位二進位，可以表示128個符號。常用的1-9,26個字母以及一些英語符號等。

ascii表是不能表示中文的，因此中文也有專門的編碼，諸如GB2312，GBK等。其它國家也有類似編碼，因此為了方便信息的交流，也就有了統一編碼，Unicode，又叫萬國碼。unicode用0-65535來表示所有字元，Unicode用2-4個位元組存儲。不同的存儲方式，又不同的編碼，這就是UTF-8，UTF-16，UTF-32。utf-8根據字元數字的大小，來決定存儲位元組，存儲英文字元時用1個位元組，存儲漢字時用2個位元組。utf-16，兩個位元組，utf-32，四個位元組。

python3 在內存中使用的是Unicode，萬國碼，默認的編碼是utf-8。

chr() ，轉換為對應Unicode表字元

ord()，轉換為對於Unicode表數字

encode()，編碼，將str轉換為位元組流

decode()，解碼，將位元組流轉換為str

計算機存儲數據的格式是二進位，日常和數學中使用的數字是十進位，為了表達簡化，因此有了十六進位、八進位。

二進位—-十進位—-八進位—》十六進位

10000001 —》129 —》201—》81

從上式可以看出來，進位越大，表達更大數時更簡化。

二進位轉十進位，按權展開相加

十進位轉二進位，除基取余

二進位轉八進位，從右往左，取3位轉換為十進位得到即為8進位，不足3位左邊補0。

八進位轉二進位，每位展開得到3個二進位位

二進位轉十六進位，，從右往左，取4位轉換為十進位得到即為16進位，不足3位左邊補0。

十六進位轉二進位，每位展開得到四個二進位位

int() ，

hex()，轉換為16進位

bin()，轉換為二進位

oct()，轉換為八進位

python是什麼編碼格式

python編碼總結：

1).首先python有兩種格式的字元串，str和unicode，其中unicode相當於位元組碼那樣，可以跨平台使用。

str轉化為unicode可以通過unicode()，u，str.decode三種方式

unicode轉化為str，如果有中文的話，一般通過encode的方式

2).如果代碼中有中文的話，我們一般會添加 “# coding=utf-8″，這個是什麼作用呢，一般如下：

如果代碼中有中文注釋，就需要此聲明比較高級的編輯器（比如我的emacs），會根據頭部聲明，將此作為代碼文件的格式。程序會通過

頭部聲明，解碼初始化 u」人生苦短」，這樣的unicode對象，（所以頭部聲明和代碼的存儲格式要一致

所以，當我們填上編碼頭的時候，使用s=”中文”，實際上type(s)是一個str，是已經將unicode以utf-8格式編碼成str。

其次，如果我們在代碼中使用s=u’中文’，相當於將str以utf-8解碼成unicode。

推薦學習《python教程》。

Python基本編碼格式

1、一般來說，聲明編碼格式在腳本中是必需的。2、如果Python源碼文件沒有聲明編碼格式，Python解釋器會默認使用ASCII編碼。但出現非ASCII編碼的字元，Python解釋器就會報錯。

1、Python 採用代碼縮進和冒號（ : ）來區分代碼塊之間的層次。2、在 Python 中，對於類定義、函數定義、流程式控制制語句、異常處理語句等，行尾的冒號和下一行的縮進，表示下一個代碼塊的開始，而縮進的結束則表示此代碼塊的結束。3、Python 中實現對代碼的縮進，可以使用空格或者 Tab 鍵實現。但無論是手動敲空格，還是使用 Tab 鍵，通常情況下都是採用 4 個空格長度作為一個縮進量（默認情況下，一個 Tab 鍵就表示 4 個空格）。4、對於 Python 縮進規則，初學者可以這樣理解，Python 要求屬於同一作用域中的各行代碼，它們的縮進量必須一致，但具體縮進量為多少，並不做硬性規定。

正確示例代碼:

錯誤示例代碼:

Python中使用 # 進行注釋，我們在使用# 的時候，# 號後面要空一格在行內注釋的時候，中間應該至少加兩個空格

print(“你好，世界”) # 注釋

** 使用的一般性原則：**

1、在二元運算符兩邊各空一格，算術操作符兩邊的空格可靈活使用，但兩側務必要保持一致2、不要在逗號、分號、冒號前面加空格，但應該在它們後面加（除非在行尾）3、函數的參數列表中，逗號之後要有空格4、函數的參數列表中，默認值等號兩邊不要添加空格5、左括弧之後，右括弧之前不要加添加空格6、參數列表，索引或切片的左括弧前不應加空格

使用的一般性原則：

1、編碼格式聲明、模塊導入、常量和全局變數聲明、頂級定義和執行代碼之間空兩行2、頂級定義之間空兩行，方法定義之間空一行3、在函數或方法內部，可以在必要的地方空一行以增強節奏感，但應避免連續空行

1、導入總應該放在文件頂部，位於模塊注釋和文檔字元串之後，模塊全局變數和常量之前。

2、導入應該按照從最通用到最不通用的順序分組，分組之間空一行：

3、每個 import 語句只導入一個模塊，盡量避免一次導入多個模塊

命名規範這一塊的大家應該都比較熟悉了，但是不同的編程語言之間的明明規範也是有所區別的~

Python命名建議遵循的一般性原則：

引號使用的一般性原則：

Python跟其他幾個主流編程語言的分號使用區別很大Python的代碼末尾不需要加分號，而Java和C#等都需要添加

不要在行尾添加分號，也不要用分號將兩條命令放在同一行，例如：

Python學習日記

python3.4 編碼有哪些

Python3中的編碼問題前，第一個段落對位元組、ASCII與Unicode與UTF-8等進行基本介紹，如果不對這幾種編碼犯頭暈，可直接跳過。

ASCII與Unicode與UTF-8與GBK

首先從老大哥說起。跟很多人一樣，大學讀了這麼久，久仰ASCII編碼的大名。要說這個老大哥，我們再先從位元組說起。一個位元組包括八個比特位，每個比特位表示0或1，一個位元組即可表示從00000000到11111111共2^8=256個數字。一個ASCII編碼使用一個位元組（除去位元組的最高位作為作奇偶校驗位），ASCII編碼實際使用一個位元組中的7個比特位來表示字元，共可表示2^7=128個字元。比如那時寫C語言的程序，就經常要背下ASCII編碼中的01000001（即十進位的65）表示字元『A』，01000001加上32之後的01100001（即十進位的97）表示字元『a』。現在打開Python，調用chr和ord函數，我們可以看到Python為我們對ASCII編碼進行了轉換。

第一個00000000表示空字元，因此ASCII編碼實際上只包括了

字母、標點符號、特殊符號等共127個字元。因為ASCII是在美國出生的，對於由字母組成單詞進而用單詞表達的英文來說也是夠了。但是中國人、日本人、

韓國人等其他語言的人不服了。中文是一個字一個字，ASCII編碼用上了渾身解數256個字元都不夠用。

因此後來出現了Unicode編碼。Unicode編碼通常由兩個位元組組成，共表示256*256個字元，即所謂的UCS-2。某些偏僻字還會用到四個位元組，即所謂的UCS-4。也就是說Unicode標準也還在發展。但UCS-4出現的比較少，我們先記住：最原始的ASCII編碼使用一個位元組編碼，但由於語言差異字元眾多，人們用上了兩個位元組，出現了統一的、囊括多國語言的Unicode編碼。

在Unicode中，原本ASCII中的127個字元只需在前面補一個全零的位元組即可，比如前文談到的字元『a』：01100001，在Unicode中變成了00000000 01100001。不久，美國人不開心了，吃上了世界民族之林的大鍋飯，原本只需一個位元組就能傳輸的英文現在變成兩個位元組，非常浪費存儲空間和傳輸速度。

人們再發揮聰明才智，於是出現了UTF-8編碼。因為針對的是空間浪費問題，因此這種UTF-8編碼是可變長短的，從英文字母的一個位元組，到中文的通常的三個位元組，再到某些生僻字的六個位元組。解決了空間問題，UTF-8編碼還有一個神奇的附加功能，那就是兼容了老大哥的ASCII編碼。一些老古董軟體現在在UTF-8編碼中可以繼續工作。

注意除了英文字母相同，漢字在Unicode編碼和UTF-8編碼中通常是不同的。比如漢字的『中』字在Unicode中是01001110

00101101，而在UTF-8編碼中是11100100 10111000

10101101。

我們祖國母親自然也有自己的一套標準。那就是GB2312和GBK。當然現在挺少看到。通常都是直接使用UTF-8。記得我唯一一次看到GB編碼的網頁，是一個成人網站。

Python3中的默認編碼

Python3中默認是UTF-8，我們通過以下代碼：

import sys

sys.getdefaultencoding()

可查看Python3的默認編碼。

Python3中的encode和decode

Python3中字元編碼經常會使用到decode和encode函數。特別是在抓取網頁中，這兩個函數用的熟練非常有好處。我的理解，encode的作用，使我們看到的直觀的字元轉換成計算機內的位元組形式。decode剛好相反，把位元組形式的字元轉換成我們看的懂的、直觀的、「人模人樣」的形式。如下圖。

\x表示後面是十六進位，\xe4\xb8\xad即是二進位的11100100 10111000

10101101。也就是說漢字『中』encode成位元組形式，是11100100 10111000

10101101。同理，我們拿11100100

10111000 10101101也就是\xe4\xb8\xad來decode回來，就是漢字『中』。完整的應該是b’\xe4\xb8\xad’，在Python3中，以位元組形式表示的字元串則必須加上前綴b，也就是寫成上文的b’xxxx’形式。

前文說的Python3的默認編碼是UTF-8，所以我們可以看到，Python處理這些字元的時候是以UTF-8來處理的。因此從上圖可以看到，就算我們通過encode(‘utf-8’)特意把字元encode為UTF-8編碼，出來的結果還是相同：b’\xe4\xb8\xad’。

明白了這一點，同時我們知道UTF-8兼容ASCII，我們可以猜想大學時經常背誦的『A』對應ASCII中的65，在這裡是不是也能正確的decode出來呢。十進位的65轉換成十六進位是41，我們嘗試下：

b’\x41′.decode()

結果如下。果然是字元『A』

Python3中的編碼轉換

據說字元在計算機的內存中統一是以Unicode編碼的。只有在字元要被寫進文件、存進硬碟或者從伺服器發送至客戶端（例如網頁前端的代碼）時會變成utf-8。但其實我比較關心怎麼把這些字元以Unicode的位元組形式表現出來，露出它在內存中的廬山正面目的。這裡有個照妖鏡：

xxxx.encode/decode(‘unicode-escape’)

輸出如下

b’\\u4e2d’還是b’\u4e2d，一個斜杠貌似沒影響。同時可以發現在shell窗口中，直接輸’\u4e2d’和輸入b’\u4e2d’.decode(‘unicode-escape’)是相同的，都會列印出漢字『中』，反而是’\u4e2d’.decode(‘unicode-escape’)會報錯。說明說明Python3不僅支持Unicode，而且一個『\uxxxx』格式的Unicode字元可被辨識且被等價於str類型。

如果我們知道一個Unicode位元組碼，怎麼變成UTF-8的位元組碼呢。懂了以上這些，現在我們就有思路了，先decode，再encode。代碼如下：

xxx.decode(‘unicode-escape’).encode()

測試如下：

可以看到最後輸出的UTF-8位元組與上面的相同。嘗試成功。所以其他的編碼之間的轉換，大概也是如此。

最後的擴展

還記得剛剛那個ord嗎。時代變遷，老大哥ASCII被人合併，但ord還是有用武之地。試試ord(‘中’)，輸出結果是20013。20013是什麼呢，我們再試試hex(ord(‘中’))，輸出結果是’0x4e2d’，也就是20013是我們在上文見面了無數次的x4e2d的十進位值。這裡說下hex，是用來轉換成十六進位的函數，學過單片機的人對hex肯定不會陌生。

最後的擴展，在網上看到的他人的問題。我們寫下類似於’\u4e2d’的字元，Python3知道我們想表達什麼。但是讓Python讀取某個文件的時候出現了’\u4e2d’，是不是計算機就不認識它了呢？後來下文有人給出了答案。如下：

import codecs

file = codecs.open( “a.txt”, “r”, “unicode-escape” )

u = file.read()

print(u)

原創文章，作者：EKXU，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/131172.html