本文目錄一覽:
- 1、python中如何獲取中文的utf8編碼
- 2、python怎麼設置 默認編碼為utf8
- 3、怎麼在Python里使用UTF-8編碼
- 4、如何設置python的編碼格式為utf-8
- 5、python讀取文件解決‘utf8’ codec can’t decode byte 0xa1的問題
python中如何獲取中文的utf8編碼
首先要表示一個漢字,至少需要2個字節碼
如果需要以utf解碼你的漢字,可以用如下辦法
unicode(‘人’,’utf-16′)
u’\ucbc8′
如果需要以gbk解碼你的漢字,可以用如下辦法
unicode(‘人’,’gbk’)
u’\u4eba
python怎麼設置 默認編碼為utf8
python的編碼格式?
#coding=utf-8
這是文檔編碼
import sys
sys.setdefaultencoding(“utf-8”)
這是設置默認編碼方式為utf-8
xx.encode(“utf-8”)
這是字符串編碼操作
import codecs
codecs.open(xx,’r’,’utf-8″),這是文件編碼讀取方式
怎麼在Python里使用UTF-8編碼
在文件的頂部添加:
# -*- coding: utf-8 -*-
或者
str.encode(“utf-8”)
如果解決了您的問題請採納!
如果未解決請繼續追問
如何設置python的編碼格式為utf-8
python的編碼格式?
#coding=utf-8
這是文檔編碼
import sys
sys.setdefaultencoding(“utf-8”)
這是設置默認編碼方式為utf-8
xx.encode(“utf-8”)
這是字符串編碼操作
import codecs
codecs.open(xx,’r’,’utf-8″),這是文件編碼讀取方式
python讀取文件解決‘utf8’ codec can’t decode byte 0xa1的問題
一般這種文件存在類似字符:
如果UTF-8搞不定,可以採取ISO-8859-1編碼方式解決:
最早的編碼是iso8859-1,和ascii編碼相似。但為了方便表示各種各樣的語言,逐漸出現了很多標準編碼,重要的有如下幾個。
很明顯,iso8859-1編碼表示的字符範圍很窄,無法表示中文字符。但是,由於是單字節編碼,和計算機最基礎的表示單位一致,所以很多時候,仍舊使用iso8859-1編碼來表示。而且在很多協議上,默認使用該編碼。比如,雖然”中文”兩個字不存在iso8859-1編碼,以gb2312編碼為例,應該是”d6d0 cec4″兩個字符,使用iso8859-1編碼的時候則將它拆開為4個字節來表示:”d6 d0 ce c4″(事實上,在進行存儲的時候,也是以字節為單位處理的)。而如果是UTF編碼,則是6個字節”e4 b8 ad e6 96 87″。很明顯,這種表示方法還需要以另一種編碼為基礎。
需要說明的是,定長編碼便於計算機處理(注意GB2312/GBK不是定長編碼),而unicode又可以用來表示所有字符,所以在很多軟件內部是使用unicode編碼來處理的,比如java。
注意,雖然說utf是為了使用更少的空間而使用的,但那只是相對於unicode編碼來說,如果已經知道是漢字,則使用GB2312/GBK無疑是最節省的。不過另一方面,值得說明的是,雖然utf編碼對漢字使用3個字節,但即使對於漢字網頁,utf編碼也會比unicode編碼節省,因為網頁中包含了很多的英文字符。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/300348.html