- 1、軟件測試中,python判斷字符串,str函數isdigit、isdecimal、isnumeri
- 2、如何理解python3的unicode,以及全角半角轉換
- 3、Python實現全角半角轉換的方法
- 4、python空格轉化為全角空格
- 5、Python的標點和符號是半角英文還是全角英文?
- 6、如何讓Python輸入逗號 不區分全半角
num = “4” # 全角數字num.isdigit() # Truenum.isdecimal() # Truenum.isnumeric() # Truenum = b”4″ # bytenum.isdigit() # Truenum.isdecimal() # AttributeError: bytes object has no attribute isdecimalnum.isnumeric() # AttributeError: bytes object has no attribute isdecimalnum = “IV” # 羅馬數字num.isdigit() # Truenum.isdecimal() # Falsenum.isnumeric() # True#num = “四” # 漢字num.isdigit() # Falsenum.isdecimal() # Falsenum.isnumeric() # True# isdigit() 支持 全角數字,byte數字(單位元組) 羅馬數字 不支持漢字# isdecimal() 支持全角數字 , 不支持 羅馬數字 漢字 , 報錯 byte數字(單位元組)# isnumeric() 支持 全角數字 羅馬數字 漢字 報錯 byte數字(單位元組)通常使用最多的是isdecimal ,如果想了解更多可以來傳智播客軟件測試學科學習
1. unicode是一個編碼的standard,表明了字符與數字之間的映射,是可變長的。
2. 映射後的數據如何編碼為位元組?這個就是具體的編碼規則:目前最主流的是UTF-8,同樣,它也是變字長的。
python3中的str都是unicode的:「The default encoding for Python source code is UTF-8」
python3中的encode:按照encode()括號中的參數對字符串進行編碼,就是生成bytes。
所以:
In:’中文’.encode(‘utf-8’)
Out:b’\xe4\xb8\xad\xe6\x96\x87′
這裡的b就是Byte,\x表示這個x是被轉義的,意思就是0x。又如:
In: ‘abc’.encode(‘utf-8’)
Out: b’abc’
上面的b’a’其實表示的是數字97,b’a’的意思就是字符串’a’的binary數字:
[In]:’abc’.encode(‘utf-8’)[0]
[Out]: 97
同時可以把b’\x’進行解碼,即:
In:b’\xe4\xb8\xad\xe6\x96\x87′.decode(‘utf-8’)
Out:’中文’
除了encode(‘utf-8’)外,用ord可以獲得單個utf-8字符對應的數字:
In [60]: ord(‘a’)
Out[60]: 97
In [61]: ord(‘a’) #這個是全角的a
Out[61]: 65345
除了decode(‘utf-8’)外,用chr可以獲得數字對應的utf-8字符:
In [62]: chr(97)
Out[62]: ‘a’
除了unicode還有別的編碼標準嗎?有啊,比如我國的GBK,別名也叫cp936。
全角和半角之分,是指同樣一個意義的字符,顯示的大小不同.具體來說,全角和半角的編碼是兩個結果:
In [70]: “mn”.encode(‘utf-8’)
Out[70]: b’\xef\xbd\x8d\xef\xbd\x8e
[In]:”mn”.encode(‘utf-8’)
[Out]:b’mn’
它們有什麼對應關係呢?(引自這裡)
轉換說明
全角半角轉換說明
有規律(不含空格):
全角字符unicode編碼從65281~65374 (十六進制 0xFF01 ~ 0xFF5E)
半角字符unicode編碼從33~126 (十六進制 0x21~ 0x7E)
特例:
空格比較特殊,全角為 12288(0x3000),半角為 32(0x20)
除空格外,全角/半角按unicode編碼排序在順序上是對應的(半角 + 0x7e= 全角),所以可以直接通過用+-法來處理非空格數據,對空格單獨處理。
代碼在此基礎上改動一下(將unichr改為chr即可,適應python3),即:
def strQ2B(ustring):
“””全角轉半角”””
rstring = “”
for uchar in ustring:
inside_code=ord(uchar)
if inside_code == 12288: #全角空格直接轉換
inside_code = 32
elif (inside_code = 65281 and inside_code = 65374): #全角字符(除空格)根據關係轉化
inside_code -= 65248
rstring += chr(inside_code)
return rstring
In [69]: strQ2B(‘你好python’)
Out[69]: ‘你好python’
Python實現全角半角轉換的方法
本文實例講解了Python實現全角半角轉換的方法,相信對於大家的Python學習能夠起到一定的參考借鑒價值。如下所示:
一、全角半角轉換概述:
全角字符unicode編碼從65281~65374 (十六進制 0xFF01 ~ 0xFF5E)
半角字符unicode編碼從33~126 (十六進制 0x21~ 0x7E)
空格比較特殊,全角為 12288(0x3000),半角為 32 (0x20)
而且除空格外,全角/半角按unicode編碼排序在順序上是對應的
所以可以直接通過用+-法來處理非空格數據,對空格單獨處理
二、全角轉半角:
實現代碼如下:
def strQ2B(ustring):
“””把字符串全角轉半角”””
rstring = “”
for uchar in ustring:
inside_code=ord(uchar)
if inside_code==0x3000:
inside_code=0x0020
else:
inside_code-=0xfee0
if inside_code0x0020 or inside_code0x7e: #轉完之後不是半角字符返回原來的字符
rstring += uchar
rstring += unichr(inside_code)
return rstring
三、半角轉全角:
實現代碼如下:
def strB2Q(ustring):
“””把字符串半角轉全角”””
rstring = “”
for uchar in ustring:
inside_code=ord(uchar)
if inside_code0x0020 or inside_code0x7e: #不是半角字符就返回原來的字符
rstring += uchar
if inside_code==0x0020: #除了空格其他的全角半角的公式為:半角=全角-0xfee0
inside_code=0x3000
else:
inside_code+=0xfee0
rstring += unichr(inside_code)
return rstring
四、測試代碼:
a = strB2Q(“abc12345”)
print a
b = strQ2B(a)
print b
輸出:
abc12345
abc12345
感興趣的朋友可以調試運行一下,相信會有一定的收穫。
輸入12288即可轉化。
在自然語言處理過程中,全角、半角的的不一致會導致信息抽取不一致,因此需要統一。空格比較特殊,全角為12288(0x3000),半角為32(0x20)。
你好,答案如下所示。
python的所有標點和符號都是半角英文
希望你能夠詳細查看。
如果你有不會的,你可以提問
我有時間就會幫你解答。
希望你好好學習。
每一天都過得充實。
1、首先中文是不區分全角和半角的。
2、其次在python中輸入逗號時,可以切換為中文輸入法進行輸入。
3、最後可以在輸入中不區分全半角,而且還能輸入正確。
原創文章,作者:簡單一點,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/126525.html