利用正則表達式在Python中匹配字元串

一、背景介紹

正則表達式是一種描述字元模式的語法規則，用於字元串匹配、搜索以及替換。Python中內置re模塊提供對正則表達式的支持，可以方便的進行字元串的處理。

本文介紹了在Python中使用正則表達式匹配字元串的相關知識。

二、正則表達式基礎

正則表達式由普通字元和特殊字元組成。普通字元包括字母、數字以及一些符號，而特殊字元使用一些轉義字元來表示特定的含義。例如，使用「\d」表示任意一個數字。

下面是一些常用的正則表達式特殊字元：

\d  匹配一個數字
\w  匹配一個字母、數字或下劃線
\s  匹配一個空格或空白字元
.   匹配任意一個字元
^   匹配行的開始位置
$   匹配行的結束位置

使用「[]」可以匹配方括弧內的任意一個字元。例如，[abc]表示匹配a、b或c。

使用「|」可以匹配多個字元中的任意一個。例如，(ab|cd)表示匹配ab或cd。

三、re模塊的使用

1. re.match()

re.match()函數用於嘗試從字元串的開頭匹配一個模式。如果字元串的開始不符合模式，則匹配失敗，函數返回None；如果匹配成功，則返回一個匹配對象。

import re
s = "hello, world"
result = re.match("hello", s)
if result:
    print(result.group()) # 輸出hello
else:
    print("匹配失敗")

2. re.search()

re.search()函數用於查找字元串中第一個匹配的模式。如果搜索到了，就返回一個匹配對象；否則返回None。

import re
s = "hello, world"
result = re.search("world", s)
if result:
    print(result.group()) # 輸出world
else:
    print("匹配失敗")

3. re.findall()

re.findall()函數用於從字元串中找出所有匹配的模式。如果找到了，則返回一個列表；否則返回空列表。

import re
s = "hello, world"
result = re.findall("l", s)
print(result) # 輸出['l', 'l', 'l']

4. re.sub()

re.sub()函數用於在字元串中替換所有匹配的模式。該函數返回替換後的字元串。

import re
s = "hello, world"
result = re.sub("world", "python", s)
print(result) # 輸出hello, python

四、實際應用

正則表達式在Python中的應用非常廣泛，可以用於字元串的匹配、搜索、替換、分割等任務。以下是一些實際應用的例子。

1. 匹配郵箱

import re
email = "myemail@qq.com"
if re.match("[\w]+@[a-zA-Z0-9]+\.[a-zA-Z]+", email):
    print("郵箱格式正確")
else:
    print("郵箱格式不正確")

2. 搜索網頁中的鏈接

import re
import requests
url = "https://www.baidu.com"
response = requests.get(url)
result = re.findall("", response.text)
for r in result:
    print(r)

3. 將句子中的單詞首字母變為大寫

import re
s = "python is a great programming language"
result = re.sub(r"\b\w", lambda m: m.group().upper(), s)
print(result) # 輸出Python Is A Great Programming Language