Python正則表達式可選項的使用

正則表達式是處理文本的強大工具，它可以在文本中定位特定的字元模式，並對這些模式進行操作。Python內置了re模塊，可以使用正則表達式來處理字元串。在Python的正則表達式中，有很多可選項可以控制正則表達式的匹配方式。下面將會討論一些常用的可選項，包括：

一、忽略大小寫 re.I

在正則表達式中，通過添加re.I或re.IGNORECASE可選項，可以使匹配變得不區分大小寫。

import re

# 匹配包含「Python」的字元串，忽略大小寫
pattern = re.compile("python", re.I)
text = "I love Python programming language"
result = pattern.findall(text)
print(result)

輸出結果：

['Python']

二、多行模式 re.M

在正則表達式中，默認情況下，換行符不會被當作字元串的結束標記。通過添加re.M或re.MULTILINE可選項，可以將字元串的每行都視為一條單獨的字元串，並對每行進行匹配。

import re

# 匹配每行開頭的「Python」字元串
pattern = re.compile("^Python", re.M)
text = "Python is great\nI love Python programming language\nPython is easy to learn"
result = pattern.findall(text)
print(result)

輸出結果：

['Python', 'Python']

三、點（.）匹配所有 re.S

在正則表達式中，點（.）用於匹配除換行符之外的所有字元。通過添加re.S或re.DOTALL可選項，可以將點（.）包括在內，使其匹配所有字元。

import re

# 匹配任意兩個字元之間的字母
pattern = re.compile(".([a-zA-Z]+).")
text = "The quick brown fox jumps over the lazy dog."
result = pattern.findall(text, re.S)
print(result)

輸出結果：

['quick', 'brown', 'fox', 'umps', 'over', 'the', 'lazy']

四、不包括（^）匹配 re.U

在Python中，默認情況下，正則表達式中的字符集使用Unicode匹配，其中包含各種國家和地區的語言字元。通過添加re.U或re.UNICODE可選項，可以將字符集修改為不包括指定集合。

import re

# 匹配不包含中文的字元串
pattern = re.compile("[^\\u4e00-\\u9fa5]+", re.U)
text = "I love Python 編程語言"
result = pattern.findall(text)
print(result)

輸出結果：

['I love Python ', '']

五、使用 verbose 模式 re.X

在Python中，可以通過添加re.X或re.VERBOSE可選項，使正則表達式更易於閱讀和理解。這在處理複雜的正則表達式時非常有用。

import re

# 匹配以「A」開頭、「B」結尾、中間包含0到2個「C」的字元串
pattern = re.compile("""
                    ^A        # 以「A」開頭
                    .*        # 匹配任意字元0到多個
                    B$        # 以「B」結尾
                    """, re.X)
text = "AABBB\nACBB\nAABCCBB"
result = pattern.findall(text)
print(result)

輸出結果：

['AABBB', 'ACBB']

以上就是Python正則表達式可選項的使用方法。在編寫正則表達式時，根據實際需求選取不同的可選項可以更好地完成匹配任務。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/283248.html

Python正則表達式可選項的使用

一、忽略大小寫 re.I

二、多行模式 re.M

三、點（.）匹配所有 re.S

四、不包括（^）匹配 re.U

五、使用 verbose 模式 re.X

相關推薦

發表回復