Python中re模塊的正則表達式用法詳解

正則表達式（Regular Expression）是一種模式匹配語言，可以用於匹配字元串中的文本片段。在Python中，我們可以通過re模塊來使用正則表達式。

一、re模塊基礎

在使用re模塊之前，我們需要先導入re模塊。

import re

使用re模塊的核心函數是re.search()和re.findall()。它們都需要兩個參數，第一個參數是正則表達式，第二個參數是要匹配的字元串。re.search()會返回第一個匹配到的字元串，而re.findall()會返回所有匹配到的字元串列表。

舉個例子，我們要在字元串”hello world”中匹配”o w”這個子串，可以這樣寫：

str = "hello world"
match = re.search("o w", str)
print(match.group())

輸出結果為：

o w

這裡的.group()是re模塊中的一個方法，它返回匹配的字元串。

使用re.findall()可以返回所有匹配的字元串。比如我們要在”aabbcc”中匹配”a”和”b”這兩個字母，可以這樣寫：

str = "aabbcc"
matches = re.findall("[ab]", str)
print(matches)

輸出結果為：

['a', 'a', 'b', 'b']

二、元字元

元字元是正則表達式中的特殊字元，用於匹配一些特定的字元或字元串。常用的元字元包括：

– .（點）：匹配任意字元（除了換行符）。
– ^：匹配字元串的開頭。
– $：匹配字元串的結尾。
– *：匹配0個或多個前面的字元。
– +：匹配1個或多個前面的字元。
– ?：匹配0個或1個前面的字元。
– []：匹配方括弧中出現的任意一個字元。
– [^]：匹配方括弧中沒有出現的任意一個字元。
– ()：定義一個子模式。

舉個例子，我們要在字元串”hello world”中匹配以”h”開頭，以”d”結尾，中間有任意多個字元的子串，可以這樣寫：

str = "hello world"
match = re.search("^h.*d$", str)
print(match.group())

輸出結果為：

hello world

我們可以看到，這裡使用了^和$元字元，表示字元串的開頭和結尾。同時使用了.*元字元，表示中間的任意多個字元。

三、字符集

字符集用方括弧[]來表示，裡面的字元表示可以匹配的任意一個字元。例如，[abc]表示可以匹配”a”、”b”、”c”中的任意一個字元。字符集還可以使用-表示範圍。例如，[a-z]表示可以匹配小寫字母中的任意一個字元。

舉個例子，我們要在字元串”apples, oranges, bananas”中匹配所有以”a”或”b”開頭，以”s”結尾的單詞，可以這樣寫：

str = "apples, oranges, bananas"
matches = re.findall("[ab][a-zA-Z]*s", str)
print(matches)

輸出結果為：

['apples', 'bananas']

這裡使用了[a-zA-Z]字符集，表示所有的字母，[a-zA-Z]*表示任意多個字母。同時，使用了前面講到的[]和*元字元。

四、轉義字元

在正則表達式中，有一些特殊字元需要進行轉義才能正確匹配。常見的轉義字元包括：

– \d：匹配數字（0-9）。
– \D：匹配非數字。
– \s：匹配空白字元（空格、製表符、換行符等）。
– \S：匹配非空白字元。
– \w：匹配字母、數字、下劃線。
– \W：匹配非字母、數字、下劃線。

舉個例子，我們要在字元串”my phone number is 123-456-7890″中匹配電話號碼，可以這樣寫：

str = "my phone number is 123-456-7890"
match = re.search("\d{3}-\d{3}-\d{4}", str)
print(match.group())

輸出結果為：

123-456-7890

這裡使用了\d元字元和{3}表示前面的字元重複匹配3次。同時，使用了-字元匹配橫線。

五、替換和分割

除了匹配字元串，re模塊還可以用來替換字元串和分割字元串。

re.sub()函數可以用來替換字元串中匹配到的子串：

str = "my phone number is 123-456-7890"
new_str = re.sub("\d", "#", str)
print(new_str)

輸出結果為：

my phone number is ###-###-####

這裡的\d表示匹配數字，#是要替換成的字元。

re.split()函數可以用來分割字元串，返回一個列表：

str = "apple,orange,banana"
words = re.split(",", str)
print(words)

輸出結果為：

['apple', 'orange', 'banana']

這裡的”,”表示分隔符。

六、貪婪模式和非貪婪模式

在匹配字元串時，正則表達式默認使用貪婪模式。即匹配時會儘可能多地匹配字元。例如，對於字元串”aaa”和正則表達式”a.*a”，貪婪模式會匹配整個字元串”aaa”。

如果想使用非貪婪模式，可以在元字元後面加上?。例如，對於字元串”aaa”和正則表達式”a.*?a”，非貪婪模式只會匹配第一個”a”。

七、總結

本文介紹了Python中re模塊的正則表達式用法，包括re模塊的基礎、元字元、字符集、轉義字元、替換和分割、貪婪模式和非貪婪模式等內容。正則表達式是一種強大的字元串處理工具，學會使用正則表達式可以大大提高字元串處理的效率。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/259566.html

Python中re模塊的正則表達式用法詳解

一、re模塊基礎

二、元字元

三、字符集

四、轉義字元

五、替換和分割

六、貪婪模式和非貪婪模式

七、總結

相關推薦

發表回復