全面了解unicodedata

一、字符的分类——unicodedata.category

在 Python 中，内置的 unicodedata 模块提供了许多有用的函数来处理 Unicode 字符串。其中之一是 unicodedata.category() 函数，用于确定 Unicode 字符的类别。

Unicode 字符由一个唯一的代码点（code point）表示。它们被分为几个类别，如字母、数字、标点符号、符号等。这些类别通过 Unicode 标准进行定义，并具有相应的缩写。例如，字符“a”属于类别“L”（字母），而“3”属于类别“N”（数字）。

import unicodedata

print(unicodedata.category('a')) # Ll
print(unicodedata.category('3')) # Nd

在上面的示例中，我们使用 unicodedata.category() 函数来确定字符“a”和“3”的类别。函数返回相应的 Unicode 类别缩写。“Ll”代表小写字母，“Nd”代表十进制数。

当我们处理 Unicode 字符串时，使用 unicodedata.category() 很常见。通过它，我们可以轻松地确定一个字符属于哪个类别，以便执行相应的操作。

二、unicodedata 库——模块和函数

unicodedata 模块提供了许多有用的函数来处理 Unicode 字符串。这里我们列出几个重要的函数：

unicodedata.normalize(form, string)

该函数用于规范化 Unicode 字符串。Unicode 字符串可以有多种不同的表示方法，例如「ñ」可以表示为一个字符（U+00F1）或者两个字符（U+006E U+0303）。normalize() 会将这种不同的表示方法转换为指定的格式。

import unicodedata

s1 = 'man\u0303ana' # Unicode字符串
s2 = unicodedata.normalize('NFC', s1)
s3 = unicodedata.normalize('NFD', s2)

print(s1 == s2) # True
print(s2 == s3) # False
print(s3 == 'mañana') # True

在上面的示例中，我们定义了一个 Unicode 字符串 s1，包含字符「ñ」的 NFD 形式。我们使用 normalize() 函数将其转换为 NFC 形式的字符串 s2，再将其转换回 NFD 形式的字符串 s3。我们可以看到，s1 和 s2 相等，但 s3 又与它们不相等。

unicodedata.name(ch)

该函数返回 Unicode 字符 ch 的描述。其中包括 Unicode 版本、字面值和别名等信息。

import unicodedata

print(unicodedata.name('\u00E7')) # LATIN SMALL LETTER C WITH CEDILLA
print(unicodedata.name('\u3042')) # HIRAGANA LETTER A

在上面的示例中，我们使用 name() 函数来获取字符「ç」和「あ」的描述信息。函数返回一个字符串，其中包括字符的名字。

三、字符的转换——unicodedata.normalize

在处理 Unicode 字符串时，一个常见的问题是字符的规范化。Unicode 字符串可以有多个等效的表示方式，其中一些表示方式可能会干扰我们的处理。例如，「母亲」在 Unicode 中有两种表示方式：「母」（U+6B74）和「亲」（U+4EB2）。我们可以使用 normalize() 函数将它们转换为相同的表示方式，从而避免问题。

unicodedata.normalize(form, string)

normalize() 函数用于将 Unicode 字符串转换为指定的标准形式。标准形式有四种，分别是 NFC，NFD，NFKC 和 NFKD。

import unicodedata

s1 = '母亲'
s2 = unicodedata.normalize('NFC', s1)
s3 = unicodedata.normalize('NFD', s1)
s4 = unicodedata.normalize('NFKC', s1)
s5 = unicodedata.normalize('NFKD', s1)

print(s1) # 母亲
print(s2) # 母亲
print(s3) # 母亲
print(s4) # 母亲
print(s5) # 母亲

在上面的示例中，我们使用 normalize() 将字符串 s1 转换为 NFC，NFD，NFKC 和 NFKD 四种形式。注意，NFC 和 NFKC 会将字符的多个表示方式转换为一个；NFD 和 NFKD 会将字符转换为它们基本的表示方式。在这个例子中，四种形式都是相同的字符串「母亲」。

四、字符的数值——unicodedata.numeric(s)

与 category() 类似，unicodedata 还提供了用于处理 Unicode 字符数字属性的函数。其中一个函数是 numeric() 函数，用于获取 Unicode 字符的数值属性。

unicodedata.numeric(s[, default])

numeric() 函数返回字符的数值属性。多数 Unicode 数字字符具有一个数字值属性，表示该字符对应数字的值。使用此函数，我们可以获得这些字符的数值属性。

import unicodedata

print(unicodedata.numeric('1')) # 1.0
print(unicodedata.numeric('¼')) # 0.25
print(unicodedata.numeric('Ⅴ')) # 5.0

在上面的示例中，我们使用 numeric() 函数来获取数字字符「1」和分数字符「¼」以及罗马数字字符「Ⅴ」的数值。函数返回一个浮点数表示数值属性。特别地，对于无法解释为数字的字符，函数返回指定的默认值。

五、最大的字符编号——unicodedata.maxunicode

unicodedata.maxunicode 变量返回 Unicode 中最大的字符编号。

import unicodedata

print(unicodedata.maxunicode) # 1114111

在上面的示例中，我们使用 maxunicode 变量来获取 Unicode 中最大的字符编号。这个值是一个整数，代表了 Unicode 字符集中最大的字符编号。

原创文章，作者：FHNA，如若转载，请注明出处：https://www.506064.com/n/148172.html