Python正則表達式速查表：快速匹配字元串模式

Python正則表達式可以被描述為一種高級的文本匹配工具，用於在給定的字元串中搜索指定的字元串模式。在處理文本數據時，它已成為Python開發人員的核心工具之一。由於正則表達式的難度和靈活性，學習它並熟練掌握它是必要的。那麼，本文將為您提供有關Python正則表達式的全面指南，從基礎到高級，幫助您更好地理解Python正則表達式。

一、基礎語法

正則表達式由一些基本字元和元字元構成。基本字元表示它們自身，而元字元具有特殊含義，可以用於表示一些特定的字元或模式。以下是Python中正則表達式的一些基本元字元：

.              匹配任意字元
\d             匹配任意數字
\D             匹配非數字
\w             匹配單詞字元
\W             匹配非單詞字元
\s             匹配空白符
\S             匹配非空白符
^              匹配字元串的開頭
$              匹配字元串的結尾
[]             匹配字符集合中的任意字元
|              或運算符
()             匹配分組
*

下面是一些基本的匹配模式示例：

import re

# 匹配任意字元
s = 'abc123def'
result = re.findall('.', s)
print(result)
# 輸出：['a', 'b', 'c', '1', '2', '3', 'd', 'e', 'f']

# 匹配數字
s = 'abc123def'
result = re.findall('\d', s)
print(result)
# 輸出：['1', '2', '3']

# 匹配單詞字元
s = 'abc123def'
result = re.findall('\w', s)
print(result)
# 輸出：['a', 'b', 'c', '1', '2', '3', 'd', 'e', 'f']

二、量詞

量詞是指定前面的模式出現的次數。例如，我們可以使用量詞來匹配固定長度的字元串或一定範圍內的數字。以下是Python中一些常用量詞：

*              匹配0次或多次
+              匹配1次或多次
?              匹配0次或1次
{m}            匹配m次
{m,}           匹配至少m次
{m,n}          匹配m-n次
*

以下是一些量詞的示例：

import re

# 匹配0次或多次
s = 'ac abb abbb abbbb'
result = re.findall('ab*', s)
print(result)
# 輸出：['a', 'abb', 'abbb', 'abbbb']

# 匹配1次或多次
s = 'ac abb abbb abbbb'
result = re.findall('ab+', s)
print(result)
# 輸出：['abb', 'abbb', 'abbbb']

# 匹配0次或1次
s = 'ac abb abbb abbbb'
result = re.findall('ab?', s)
print(result)
# 輸出：['a', 'ab', 'ab', 'ab']

# 匹配至少3次
s = 'ac abb abbb abbbb'
result = re.findall('ab{3,}', s)
print(result)
# 輸出：['abbb', 'abbbb']

三、定位符

定位符用於指定匹配模式的位置。例如，我們可以使用定位符來匹配在字元串的開頭或結尾位置的模式。以下是Python中一些常用的定位符：

^              匹配字元串的開頭
$              匹配字元串的結尾
\b             匹配單詞邊界
\B             匹配非單詞邊界
*

以下是一些定位符的示例：

import re

# 匹配字元串的開頭
s = 'abc123def'
result = re.findall('^ab', s)
print(result)
# 輸出：['ab']

# 匹配字元串的結尾
s = 'abc123def'
result = re.findall('def$', s)
print(result)
# 輸出：['def']

# 匹配單詞邊界
s = 'I love Python, do you?'
result = re.findall(r'\bPython\b', s)
print(result)
# 輸出：['Python']

四、分組

分組可以將一個或多個模式組合成一個單元，並對其進行操作。例如，我們可以使用分組來捕獲特定的模式或重複使用同一模式。以下是Python中一些常用的分組語法：

()             捕獲分組，將匹配的結果存儲到一個變數中
(?:)           非捕獲分組，用於重複使用模式，並將結果存儲到一個變數中
(?P)     命名分組
(?P=name)      引用命名分組
*

以下是一些分組的示例：

import re

# 捕獲分組
s = 'Name: John, Age: 25'
result = re.findall('Name: (\w+), Age: (\d+)', s)
print(result)
# 輸出：[('John', '25')]

# 非捕獲分組
s = 'abbaabbaaabbaaa'
result = re.findall('(ab)+', s)
print(result)
# 輸出：['ab', 'ab', 'ab']

# 命名分組
s = 'Name: John, Age: 25'
result = re.findall('Name: (?P\w+), Age: (?P\d+)', s)
print(result)
# 輸出：[('John', '25')]

# 引用命名分組
s = 'John John'
result = re.findall(r'(?P\w+) (?P=name)', s)
print(result)
# 輸出：['John']

五、修飾符

修飾符用於修改正則表達式模式的行為。例如，我們可以使用修飾符來忽略大小寫或使用多行模式。以下是Python中一些常用的修飾符：

re.I           忽略大小寫
re.M           多行模式
re.S           使.匹配任意字元，包括換行符
re.X           忽略空格和注釋
*

以下是一些修飾符的示例：

import re

# 忽略大小寫
s = 'AbC'
result = re.findall('abc', s, re.I)
print(result)
# 輸出：['AbC']

# 多行模式
s = 'abc\ndef\nghi\n'
result = re.findall('^abc', s, re.M)
print(result)
# 輸出：['abc']

# 使.匹配任意字元，包括換行符
s = 'abc\ndef\nghi\n'
result = re.findall('.', s, re.S)
print(result)
# 輸出：['a', 'b', 'c', '\n', 'd', 'e', 'f', '\n', 'g', 'h', 'i', '\n']

# 忽略空格和注釋
s = 'abc   def'
result = re.findall('abc def', s, re.X)
print(result)
# 輸出：['abc   def']

六、總結

Python正則表達式是一個非常強大的文本處理工具，可以用於在文本中查找和提取匹配的模式。本文從基礎語法、量詞、定位符、分組和修飾符等多個方面對Python正則表達式進行了詳細闡述，並提供了相對應的代碼示例。掌握這些知識，您將能夠更有效地使用Python處理文本數據。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/159375.html