編碼以及python中的編碼(python用的什麼編碼)

本文目錄一覽:

python編程(三級)1、編碼、數制

在計算機中使用的是二進制,(為什麼呢,因為二進制計算簡單,可以用電路表示等等很多優點)。但是二進制對閱讀和使用是不友好的,因此需要將二進制轉換為人類使用的語言,英語,中文等,這就是編碼。

最初的編碼就是ASCII編碼,美國信息交換碼。它使用一個字節,8位二進制,可以表示128個符號。常用的1-9,26個字母以及一些英語符號等。

ascii表是不能表示中文的,因此中文也有專門的編碼,諸如GB2312,GBK等。其它國家也有類似編碼,因此為了方便信息的交流,也就有了統一編碼,Unicode,又叫萬國碼。unicode用0-65535來表示所有字符,Unicode用2-4個字節存儲。不同的存儲方式,又不同的編碼,這就是UTF-8,UTF-16,UTF-32。utf-8根據字符數字的大小,來決定存儲字節,存儲英文字符時用1個字節,存儲漢字時用2個字節。utf-16,兩個字節,utf-32,四個字節。

python3 在內存中使用的是Unicode,萬國碼,默認的編碼是utf-8。

chr() ,轉換為對應Unicode表字符

ord(),轉換為對於Unicode表數字

encode(),編碼,將str轉換為字節流

decode(),解碼,將字節流轉換為str

計算機存儲數據的格式是二進制,日常和數學中使用的數字是十進制,為了表達簡化,因此有了十六進制、八進制。

二進制—-十進制—-八進制—》十六進制

10000001  —》129  —》201—》81

從上式可以看出來,進制越大,表達更大數時更簡化。

二進制轉十進制  ,按權展開相加

十進制轉二進制,除基取余

二進制轉八進制 ,從右往左,取3位轉換為十進制得到即為8進制,不足3位左邊補0。

八進制轉二進制,每位展開得到3個二進制位

二進制轉十六進制,,從右往左,取4位轉換為十進制得到即為16進制,不足3位左邊補0。

十六進制轉二進制,每位展開得到四個二進制位

int() ,

hex(),轉換為16進制

bin(),轉換為二進制

oct(),轉換為八進制

python是什麼編碼格式

python編碼總結:

1).首先python有兩種格式的字符串,str和unicode,其中unicode相當於字節碼那樣,可以跨平台使用。

str轉化為unicode可以通過unicode(),u,str.decode三種方式

unicode轉化為str,如果有中文的話,一般通過encode的方式

2).如果代碼中有中文的話,我們一般會添加 “# coding=utf-8″,這個是什麼作用呢,一般如下:

如果代碼中有中文注釋,就需要此聲明比較高級的編輯器(比如我的emacs),會根據頭部聲明,將此作為代碼文件的格式。程序會通過

頭部聲明,解碼初始化 u”人生苦短”,這樣的unicode對象,(所以頭部聲明和代碼的存儲格式要一致

所以,當我們填上編碼頭的時候,使用s=”中文”,實際上type(s)是一個str,是已經將unicode以utf-8格式編碼成str。

其次,如果我們在代碼中使用s=u’中文’,相當於將str以utf-8解碼成unicode。

推薦學習《python教程》。

Python基本編碼格式

1、一般來說,聲明編碼格式在腳本中是必需的。2、如果Python源碼文件沒有聲明編碼格式,Python解釋器會默認使用ASCII編碼。但出現非ASCII編碼的字符,Python解釋器就會報錯。

1、Python 採用代碼縮進和冒號( : )來區分代碼塊之間的層次。2、在 Python 中,對於類定義、函數定義、流程控制語句、異常處理語句等,行尾的冒號和下一行的縮進,表示下一個代碼塊的開始,而縮進的結束則表示此代碼塊的結束。3、Python 中實現對代碼的縮進,可以使用空格或者 Tab 鍵實現。但無論是手動敲空格,還是使用 Tab 鍵,通常情況下都是採用 4 個空格長度作為一個縮進量(默認情況下,一個 Tab 鍵就表示 4 個空格)。4、對於 Python 縮進規則,初學者可以這樣理解,Python 要求屬於同一作用域中的各行代碼,它們的縮進量必須一致,但具體縮進量為多少,並不做硬性規定。

正確示例代碼:

錯誤示例代碼:

Python中使用 # 進行注釋,我們在使用# 的時候,# 號後面要空一格在行內注釋的時候,中間應該至少加兩個空格

print(“你好,世界”) # 注釋

** 使用的一般性原則:**

1、在二元運算符兩邊各空一格,算術操作符兩邊的空格可靈活使用,但兩側務必要保持一致2、不要在逗號、分號、冒號前面加空格,但應該在它們後面加(除非在行尾)3、函數的參數列表中,逗號之後要有空格4、函數的參數列表中,默認值等號兩邊不要添加空格5、左括號之後,右括號之前不要加添加空格6、參數列表, 索引或切片的左括號前不應加空格

使用的一般性原則:

1、編碼格式聲明、模塊導入、常量和全局變量聲明、頂級定義和執行代碼之間空兩行2、頂級定義之間空兩行,方法定義之間空一行3、在函數或方法內部,可以在必要的地方空一行以增強節奏感,但應避免連續空行

1、導入總應該放在文件頂部,位於模塊注釋和文檔字符串之後,模塊全局變量和常量之前。

2、導入應該按照從最通用到最不通用的順序分組,分組之間空一行:

3、每個 import 語句只導入一個模塊,盡量避免一次導入多個模塊

命名規範這一塊的大家應該都比較熟悉了,但是不同的編程語言之間的明明規範也是有所區別的~

Python命名建議遵循的一般性原則:

引號使用的一般性原則:

Python跟其他幾個主流編程語言的分號使用區別很大Python的代碼末尾不需要加分號,而Java和C#等都需要添加

不要在行尾添加分號,也不要用分號將兩條命令放在同一行,例如:

Python學習日記

python3.4 編碼有哪些

Python3中的編碼問題前,第一個段落對字節、ASCII與Unicode與UTF-8等進行基本介紹,如果不對這幾種編碼犯頭暈,可直接跳過。

ASCII與Unicode與UTF-8與GBK

首先從老大哥說起。跟很多人一樣,大學讀了這麼久,久仰ASCII編碼的大名。要說這個老大哥,我們再先從字節說起。一個字節包括八個比特位,每個比特位表示0或1,一個字節即可表示從00000000到11111111共2^8=256個數字。一個ASCII編碼使用一個字節(除去字節的最高位作為作奇偶校驗位),ASCII編碼實際使用一個字節中的7個比特位來表示字符,共可表示2^7=128個字符。比如那時寫C語言的程序,就經常要背下ASCII編碼中的01000001(即十進制的65)表示字符‘A’,01000001加上32之後的01100001(即十進制的97)表示字符‘a’。現在打開Python,調用chr和ord函數,我們可以看到Python為我們對ASCII編碼進行了轉換。

第一個00000000表示空字符,因此ASCII編碼實際上只包括了

字母、標點符號、特殊符號等共127個字符。因為ASCII是在美國出生的,對於由字母組成單詞進而用單詞表達的英文來說也是夠了。但是中國人、日本人、

韓國人等其他語言的人不服了。中文是一個字一個字,ASCII編碼用上了渾身解數256個字符都不夠用。

因此後來出現了Unicode編碼。Unicode編碼通常由兩個字節組成,共表示256*256個字符,即所謂的UCS-2。某些偏僻字還會用到四個字節,即所謂的UCS-4。也就是說Unicode標準也還在發展。但UCS-4出現的比較少,我們先記住:最原始的ASCII編碼使用一個字節編碼,但由於語言差異字符眾多,人們用上了兩個字節,出現了統一的、囊括多國語言的Unicode編碼。

在Unicode中,原本ASCII中的127個字符只需在前面補一個全零的字節即可,比如前文談到的字符‘a’:01100001,在Unicode中變成了00000000 01100001。不久,美國人不開心了,吃上了世界民族之林的大鍋飯,原本只需一個字節就能傳輸的英文現在變成兩個字節,非常浪費存儲空間和傳輸速度。

人們再發揮聰明才智,於是出現了UTF-8編碼。因為針對的是空間浪費問題,因此這種UTF-8編碼是可變長短的,從英文字母的一個字節,到中文的通常的三個字節,再到某些生僻字的六個字節。解決了空間問題,UTF-8編碼還有一個神奇的附加功能,那就是兼容了老大哥的ASCII編碼。一些老古董軟件現在在UTF-8編碼中可以繼續工作。

注意除了英文字母相同,漢字在Unicode編碼和UTF-8編碼中通常是不同的。比如漢字的‘中’字在Unicode中是01001110

00101101,而在UTF-8編碼中是11100100 10111000

10101101。

我們祖國母親自然也有自己的一套標準。那就是GB2312和GBK。當然現在挺少看到。通常都是直接使用UTF-8。記得我唯一一次看到GB編碼的網頁,是一個成人網站。

Python3中的默認編碼

Python3中默認是UTF-8,我們通過以下代碼:

import sys

sys.getdefaultencoding()

可查看Python3的默認編碼。

Python3中的encode和decode

Python3中字符編碼經常會使用到decode和encode函數。特別是在抓取網頁中,這兩個函數用的熟練非常有好處。我的理解,encode的作用,使我們看到的直觀的字符轉換成計算機內的字節形式。decode剛好相反,把字節形式的字符轉換成我們看的懂的、直觀的、“人模人樣”的形式。如下圖。

\x表示後面是十六進制,\xe4\xb8\xad即是二進制的11100100 10111000

10101101。也就是說漢字‘中’encode成字節形式,是11100100 10111000

10101101。同理,我們拿11100100

10111000 10101101也就是\xe4\xb8\xad來decode回來,就是漢字‘中’。完整的應該是b’\xe4\xb8\xad’,在Python3中,以字節形式表示的字符串則必須加上前綴b,也就是寫成上文的b’xxxx’形式。

前文說的Python3的默認編碼是UTF-8,所以我們可以看到,Python處理這些字符的時候是以UTF-8來處理的。因此從上圖可以看到,就算我們通過encode(‘utf-8’)特意把字符encode為UTF-8編碼,出來的結果還是相同:b’\xe4\xb8\xad’。

明白了這一點,同時我們知道UTF-8兼容ASCII,我們可以猜想大學時經常背誦的‘A’對應ASCII中的65,在這裡是不是也能正確的decode出來呢。十進制的65轉換成十六進制是41,我們嘗試下:

b’\x41′.decode()

結果如下。果然是字符‘A’

Python3中的編碼轉換

據說字符在計算機的內存中統一是以Unicode編碼的。只有在字符要被寫進文件、存進硬盤或者從服務器發送至客戶端(例如網頁前端的代碼)時會變成utf-8。但其實我比較關心怎麼把這些字符以Unicode的字節形式表現出來,露出它在內存中的廬山正面目的。這裡有個照妖鏡:

xxxx.encode/decode(‘unicode-escape’)

輸出如下

b’\\u4e2d’還是b’\u4e2d,一個斜杠貌似沒影響。同時可以發現在shell窗口中,直接輸’\u4e2d’和輸入b’\u4e2d’.decode(‘unicode-escape’)是相同的,都會打印出漢字‘中’,反而是’\u4e2d’.decode(‘unicode-escape’)會報錯。說明說明Python3不僅支持Unicode,而且一個‘\uxxxx’格式的Unicode字符可被辨識且被等價於str類型。

如果我們知道一個Unicode字節碼,怎麼變成UTF-8的字節碼呢。懂了以上這些,現在我們就有思路了,先decode,再encode。代碼如下:

xxx.decode(‘unicode-escape’).encode()

測試如下:

可以看到最後輸出的UTF-8字節與上面的相同。嘗試成功。所以其他的編碼之間的轉換,大概也是如此。

最後的擴展

還記得剛剛那個ord嗎。時代變遷,老大哥ASCII被人合併,但ord還是有用武之地。試試ord(‘中’),輸出結果是20013。20013是什麼呢,我們再試試hex(ord(‘中’)),輸出結果是’0x4e2d’,也就是20013是我們在上文見面了無數次的x4e2d的十進制值。這裡說下hex,是用來轉換成十六進制的函數,學過單片機的人對hex肯定不會陌生。

最後的擴展,在網上看到的他人的問題。我們寫下類似於’\u4e2d’的字符,Python3知道我們想表達什麼。但是讓Python讀取某個文件的時候出現了’\u4e2d’,是不是計算機就不認識它了呢?後來下文有人給出了答案。如下:

import codecs

file = codecs.open( “a.txt”, “r”, “unicode-escape” )

u = file.read()

print(u)

原創文章,作者:EKXU,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/131172.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
EKXU的頭像EKXU
上一篇 2024-10-03 23:43
下一篇 2024-10-03 23:43

相關推薦

  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智能、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29
  • 蝴蝶優化算法Python版

    蝴蝶優化算法是一種基於仿生學的優化算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化算法Python版…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29

發表回復

登錄後才能評論