全面了解unicodedata

一、字元的分類——unicodedata.category

在 Python 中，內置的 unicodedata 模塊提供了許多有用的函數來處理 Unicode 字元串。其中之一是 unicodedata.category() 函數，用於確定 Unicode 字元的類別。

Unicode 字元由一個唯一的代碼點（code point）表示。它們被分為幾個類別，如字母、數字、標點符號、符號等。這些類別通過 Unicode 標準進行定義，並具有相應的縮寫。例如，字元「a」屬於類別「L」（字母），而「3」屬於類別「N」（數字）。

import unicodedata

print(unicodedata.category('a')) # Ll
print(unicodedata.category('3')) # Nd

在上面的示例中，我們使用 unicodedata.category() 函數來確定字元「a」和「3」的類別。函數返回相應的 Unicode 類別縮寫。「Ll」代表小寫字母，「Nd」代表十進位數。

當我們處理 Unicode 字元串時，使用 unicodedata.category() 很常見。通過它，我們可以輕鬆地確定一個字元屬於哪個類別，以便執行相應的操作。

二、unicodedata 庫——模塊和函數

unicodedata 模塊提供了許多有用的函數來處理 Unicode 字元串。這裡我們列出幾個重要的函數：

unicodedata.normalize(form, string)

該函數用於規範化 Unicode 字元串。Unicode 字元串可以有多種不同的表示方法，例如「ñ」可以表示為一個字元（U+00F1）或者兩個字元（U+006E U+0303）。normalize() 會將這種不同的表示方法轉換為指定的格式。

import unicodedata

s1 = 'man\u0303ana' # Unicode字元串
s2 = unicodedata.normalize('NFC', s1)
s3 = unicodedata.normalize('NFD', s2)

print(s1 == s2) # True
print(s2 == s3) # False
print(s3 == 'mañana') # True

在上面的示例中，我們定義了一個 Unicode 字元串 s1，包含字元「ñ」的 NFD 形式。我們使用 normalize() 函數將其轉換為 NFC 形式的字元串 s2，再將其轉換回 NFD 形式的字元串 s3。我們可以看到，s1 和 s2 相等，但 s3 又與它們不相等。

unicodedata.name(ch)

該函數返回 Unicode 字元 ch 的描述。其中包括 Unicode 版本、字面值和別名等信息。

import unicodedata

print(unicodedata.name('\u00E7')) # LATIN SMALL LETTER C WITH CEDILLA
print(unicodedata.name('\u3042')) # HIRAGANA LETTER A

在上面的示例中，我們使用 name() 函數來獲取字元「ç」和「あ」的描述信息。函數返回一個字元串，其中包括字元的名字。

三、字元的轉換——unicodedata.normalize

在處理 Unicode 字元串時，一個常見的問題是字元的規範化。Unicode 字元串可以有多個等效的表示方式，其中一些表示方式可能會干擾我們的處理。例如，「母親」在 Unicode 中有兩種表示方式：「母」（U+6B74）和「親」（U+4EB2）。我們可以使用 normalize() 函數將它們轉換為相同的表示方式，從而避免問題。

unicodedata.normalize(form, string)

normalize() 函數用於將 Unicode 字元串轉換為指定的標準形式。標準形式有四種，分別是 NFC，NFD，NFKC 和 NFKD。

import unicodedata

s1 = '母親'
s2 = unicodedata.normalize('NFC', s1)
s3 = unicodedata.normalize('NFD', s1)
s4 = unicodedata.normalize('NFKC', s1)
s5 = unicodedata.normalize('NFKD', s1)

print(s1) # 母親
print(s2) # 母親
print(s3) # 母親
print(s4) # 母親
print(s5) # 母親

在上面的示例中，我們使用 normalize() 將字元串 s1 轉換為 NFC，NFD，NFKC 和 NFKD 四種形式。注意，NFC 和 NFKC 會將字元的多個表示方式轉換為一個；NFD 和 NFKD 會將字元轉換為它們基本的表示方式。在這個例子中，四種形式都是相同的字元串「母親」。

四、字元的數值——unicodedata.numeric(s)

與 category() 類似，unicodedata 還提供了用於處理 Unicode 字元數字屬性的函數。其中一個函數是 numeric() 函數，用於獲取 Unicode 字元的數值屬性。

unicodedata.numeric(s[, default])

numeric() 函數返回字元的數值屬性。多數 Unicode 數字字元具有一個數字值屬性，表示該字元對應數字的值。使用此函數，我們可以獲得這些字元的數值屬性。

import unicodedata

print(unicodedata.numeric('1')) # 1.0
print(unicodedata.numeric('¼')) # 0.25
print(unicodedata.numeric('Ⅴ')) # 5.0

在上面的示例中，我們使用 numeric() 函數來獲取數字字元「1」和分數字元「¼」以及羅馬數字字元「Ⅴ」的數值。函數返回一個浮點數表示數值屬性。特別地，對於無法解釋為數字的字元，函數返回指定的默認值。

五、最大的字元編號——unicodedata.maxunicode

unicodedata.maxunicode 變數返回 Unicode 中最大的字元編號。

import unicodedata

print(unicodedata.maxunicode) # 1114111

在上面的示例中，我們使用 maxunicode 變數來獲取 Unicode 中最大的字元編號。這個值是一個整數，代表了 Unicode 字符集中最大的字元編號。

原創文章，作者：FHNA，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/148172.html