利用Python Regex實現字元串模式匹配功能

正則表達式是一種字元串處理的工具，可以用來匹配、搜索或替換文本中的特定模式。在Python中，可以使用re模塊來實現正則表達式的操作。正則表達式在Python中廣泛應用於數據處理、文本分析、爬蟲、自然語言處理等領域。

一、正則表達式基礎

正則表達式是由一些特定字元和操作符組成的文本模式，用來描述字元串的特定格式和匹配規則。下面是一些常用的正則表達式字元和操作符：


.       匹配任意單個字元
\       轉義字元，用來表示特殊字元
^       匹配字元串的開始位置
$       匹配字元串的結束位置
*       匹配前一個字元的零個或多個實例
+       匹配前一個字元的一次或多次實例
?       匹配前一個字元的零次或一次實例
[]      匹配括弧中的任意一個字元
()      表示一個子表達式
|       表示「或」操作符
{}      匹配重複次數

下面是一些反斜杠字元代表的特殊字元：


\d      匹配任意數字
\w      匹配任意字母、數字、下劃線
\s      匹配任意空白字元
\D      匹配任意非數字
\W      匹配任意非字母、數字、下劃線
\S      匹配任意非空白字元

正則表達式中還可以使用一些重複字元來表示重複次數：


*       匹配前一個字元的零個或多個實例
+       匹配前一個字元的一次或多次實例
?       匹配前一個字元的零次或一次實例
{n}     匹配前一個字元的n次實例
{n,}    匹配前一個字元的n次或更多實例
{n,m}   匹配前一個字元的n到m次實例

正則表達式中可以使用圓括弧來表示子表達式，這些子表達式可以在整個表達式中進行引用。例如，可以使用 \( 和 \) 進行分組。下面是一個例子：


import re

pattern = r'(ab)+'
text = 'abababababab'

match = re.match(pattern, text)
if match:
    print(match.group())

運行上述代碼會輸出 “abababababab” ，表示匹配成功。

二、正則表達式在Python中的應用

1. re.match() 方法

re.match() 方法用於嘗試從字元串的起始位置匹配一個模式，如果匹配成功則返回一個匹配對象，否則返回None。下面是一個例子：


import re

pattern = r'hello'
text = 'hello, world'

match = re.match(pattern, text)
if match:
    print(match.group())

運行上述代碼會輸出 “hello” ，表示匹配成功。

2. re.search() 方法

re.search() 方法用於在整個字元串中匹配一個模式，如果匹配成功則返回一個匹配對象，否則返回None。下面是一個例子：


import re

pattern = r'world'
text = 'hello, world'

match = re.search(pattern, text)
if match:
    print(match.group())

運行上述代碼會輸出 “world” ，表示匹配成功。

3. re.findall() 方法

re.findall() 方法用於在整個字元串中查找所有匹配的模式，並返回一個列表。下面是一個例子：


import re

pattern = r'\d+'
text = 'There are 12 apples and 15 oranges'

match = re.findall(pattern, text)
if match:
    print(match)

運行上述代碼會輸出 [“12”, “15”] ，表示匹配成功。

4. re.sub() 方法

re.sub() 方法用於在字元串中替換匹配的模式為指定的字元串。下面是一個例子：


import re

pattern = r'\d+'
text = 'There are 12 apples and 15 oranges'

new_text = re.sub(pattern, '100', text)
print(new_text)

運行上述代碼會輸出 “There are 100 apples and 100 oranges” ，表示匹配成功並替換。

三、應用實例

1. 郵箱地址的驗證

郵箱地址一般由用戶名、@符號、域名組成。用戶名由字母、數字、點、下劃線組成，域名由字母、數字、減號、點組成。下面是一個通過正則表達式來驗證郵箱地址的例子：


import re

pattern = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
email = 'abc123_@gmail.com'

match = re.match(pattern, email)
if match:
    print('valid email')
else:
    print('invalid email')

運行上述代碼會輸出 “valid email” ，表示郵箱地址驗證成功。

2. 手機號碼的驗證

手機號碼是一種由數字組成的字元串，一般包含11位數字。下面是一個通過正則表達式來驗證手機號碼的例子：


import re

pattern = r'^1[3456789]\d{9}$'
phone_number = '13888888888'

match = re.match(pattern, phone_number)
if match:
    print('valid phone number')
else:
    print('invalid phone number')

運行上述代碼會輸出 “valid phone number” ，表示手機號碼驗證成功。

3. IP地址的提取

IP地址是一種由數字和點組成的字元串，表示計算機的網路地址。下面是一個通過正則表達式來提取IP地址的例子：


import re

pattern = r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}'
text = '192.168.1.1 is a local IP address'

match = re.search(pattern, text)
if match:
    print(match.group())

運行上述代碼會輸出 “192.168.1.1” ，表示成功提取IP地址。

4. 符合條件的字元串的提取

假設需要從一個文本中提取滿足一定條件的字元串，可以通過正則表達式來實現。下面是一個例子，在文本中提取包含數字的字元串：


import re

pattern = r'\w*\d\w*'
text = 'hello 123 world'

match = re.findall(pattern, text)
if match:
    print(match)

運行上述代碼會輸出 [“hello”, “123”, “world”] ，表示成功提取符合條件的字元串。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/236592.html