Python re-match：使用正則表達式匹配字元串

在Python中，我們常常使用正則表達式來處理字元串，特別是在文本處理、爬蟲等方面。Python中的re模塊提供了一系列方法來處理正則表達式。我們本篇文章將從多個方面來介紹Python re-match的使用。

一、正則表達式基礎

在使用re模塊處理字元串，我們首先需要了解正則表達式的基礎。正則表達式是一種特殊語法的字元串模式，用來描述一類字元串的特徵。在Python中，我們可以使用re模塊中的正則表達式處理函數來對字元串進行匹配、查找、替換等操作。

在正則表達式中，一些特殊符號有特殊的意義，如下表所示：

符號	匹配內容
.	匹配任意字元
\d	匹配任意數字（0-9）
\D	匹配非數字字元
\w	匹配任意字母（大小寫字元）、數字、下劃線
\W	匹配非字母、數字、下劃線字元
\s	匹配任意空白字元（空格、製表符、換行符等）
\S	匹配非空白字元
^	匹配行的開頭
$	匹配行的結尾
*	匹配前面的字元出現0次或多次
+	匹配前面的字元出現1次或多次
{n}	匹配前面字元出現n次
{m,n}	匹配前面字元出現m-n次
(…)	匹配括弧內的表達式
[…]	匹配方括弧內的任意字元

例如，我們可以使用「.」來匹配任意字元：

import re

pattern = "張."
string = "張三 李四 王五"
result = re.findall(pattern, string)
print(result) # ['張三', '張四', '張五']

在上述例子中，正則表達式「張.」可以匹配「張三」、「張四」、「張五」中的「張」和緊隨其後的任意一個字元。

二、匹配和查找字元串

使用re模塊，我們可以使用findall方法、search方法、match方法來對字元串進行匹配和查找。

findall方法會返回所有匹配的字元串列表。例如，我們可以使用findall方法來查找字元串中所有的數字：

import re

pattern = "\d+"
string = "聯繫電話：1234567890，地址：北京市海淀區"
result = re.findall(pattern, string)
print(result) # ['1234567890']

search方法會從字元串的開頭開始匹配，只返回第一個滿足條件的字元串。例如，我們可以使用search方法來查找字元串中的城市名稱：

import re

pattern = "(上海|北京|杭州|深圳|廣州)"
string = "我在上海工作"
result = re.search(pattern, string)
print(result.group()) # 上海

match方法與search方法類似，但是只從字元串的開頭開始匹配。例如，我們可以使用match方法來判斷字元串是否以「http」開頭：

import re

pattern = "http"
string = "http://www.baidu.com"
result = re.match(pattern, string)
if result:
    print("是以http開頭的url")
else:
    print("不是以http開頭的url")

三、替換字元串

在re模塊中，我們也可以使用sub方法來對字元串進行替換。例如，我們可以使用sub方法將字元串中的數字替換為「*」：

import re

pattern = "\d"
string = "我的手機號碼是1234567890"
result = re.sub(pattern, "*", string)
print(result) # 我的手機號碼是**********

我們還可以使用sub方法進行大規模的替換操作。例如，我們可以使用sub方法將字元串中的敏感詞替換為「*」：

import re

pattern = "(你媽|你爸|你奶|你干)"
string = "這是一句髒話，你媽媽的"
result = re.sub(pattern, "*", string)
print(result) # 這是一句髒話，**

四、正則表達式高級應用

在正則表達式的使用中，有一些高級的應用技巧，例如：

1、非貪婪匹配

正則表達式默認是貪婪匹配，即儘可能匹配更多的字元。但有時我們需要使用非貪婪匹配，即儘可能少地匹配字元。可以在匹配模式後面加上「?」來實現非貪婪匹配。

import re
pattern = ".+?"
string = "aaa
原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/293852.html