什麼是正則表達式?
正則表達式(Regular Expression)通常被用來檢索、替換那些符合某個模式(規則)的文本。

此處的Regular即是規則、規律的意思,Regular Expression即「描述某種規則的表達式」之意。

本文收集了一些常見的正則表達式用法,方便大家查詢取用,並在最後附了詳細的正則表達式語法手冊。
案例包括:「郵箱、身份證號、手機號碼、固定電話、域名、IP地址、日期、郵編、密碼、中文字符、數字、字符串」
Python如何支持正則?
我用的是python來實現正則,並使用Jupyter Notebook編寫代碼。
Python通過re模塊支持正則表達式,re 模塊使 Python 語言擁有全部的正則表達式功能。

這裡要注意兩個函數的使用:
re.compile用於編譯正則表達式,生成一個正則表達式( Pattern )對象;
.findall用於在字符串中找到正則表達式所匹配的所有子串,並返回一個列表,如果沒有找到匹配的,則返回空列表。
# 導入re模塊
import re
1.郵箱
包含大小寫字母,下劃線,阿拉伯數字,點號,中劃線
表達式:
[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(?:.[a-zA-Z0-9_-]+)
案例:
pattern = re.compile(r"[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(?:.[a-zA-Z0-9_-]+)")
strs = '我的私人郵箱是zhuwjwh@outlook.com,公司郵箱是123456@qq.org,麻煩登記一下?'
result = pattern.findall(strs)
print(result)
['zhuwjwh@outlook.com', '123456@qq.org']
2. 身份證號
xxxxxx yyyy MM dd 375 0 十八位
- 地區: [1-9]d{5}
- 年的前兩位: (18|19|([23]d)) 1800-2399
- 年的後兩位: d{2}
- 月份: ((0[1-9])|(10|11|12))
- 天數: (([0-2][1-9])|10|20|30|31) 閏年不能禁止29+
- 三位順序碼: d{3}
- 兩位順序碼: d{2}
- 校驗碼: [0-9Xx]
表達式:
[1-9]d{5}(18|19|([23]d))d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)d{3}[0-9Xx]
案例:
pattern = re.compile(r"[1-9]d{5}(?:18|19|(?:[23]d))d{2}(?:(?:0[1-9])|(?:10|11|12))(?:(?:[0-2][1-9])|10|20|30|31)d{3}[0-9Xx]")
strs = '小明的身份證號碼是342623198910235163,手機號是13987692110'
result = pattern.findall(strs)
print(result)
['342623198910235163']
3. 國內手機號碼
手機號都為11位,且以1開頭,第二位一般為3、5、6、7、8、9 ,剩下八位任意數字
例如:13987692110、15610098778
表達式:
1(3|4|5|6|7|8|9)d{9}
案例:
pattern = re.compile(r"1[356789]d{9}")
strs = '小明的手機號是13987692110,你明天打給他'
result = pattern.findall(strs)
print(result)
['13987692110']
4. 國內固定電話
區號3~4位,號碼7~8位
例如:0511-1234567、021-87654321
表達式:
d{3}-d{8}|d{4}-d{7}
案例:
pattern = re.compile(r"d{3}-d{8}|d{4}-d{7}")
strs = '0511-1234567是小明家的電話,他的辦公室電話是021-87654321'
result = pattern.findall(strs)
print(result)
['0511-1234567', '021-87654321']
5. 域名
包含http:\或https:\
表達式:
(?:(?:http://)|(?:https://))?(?:[w](?:[w-]{0,61}[w])?.)+[a-zA-Z]{2,6}(?:/)
案例:
pattern = re.compile(r"(?:(?:http://)|(?:https://))?(?:[w](?:[w-]{0,61}[w])?.)+[a-zA-Z]{2,6}(?:/)")
strs = 'Python官網的網址是https://www.python.org/'
result = pattern.findall(strs)
print(result)
['https://www.python.org/']
6. IP地址
IP地址的長度為32位(共有2^32個IP地址),分為4段,每段8位,用十進制數字表示
每段數字範圍為0~255,段與段之間用句點隔開
表達式:
((?:(?:25[0-5]|2[0-4]d|[01]?d?d).){3}(?:25[0-5]|2[0-4]d|[01]?d?d))
案例:
pattern = re.compile(r"((?:(?:25[0-5]|2[0-4]d|[01]?d?d).){3}(?:25[0-5]|2[0-4]d|[01]?d?d))")
strs = '''請輸入合法IP地址,非法IP地址和其他字符將被過濾!
增、刪、改IP地址後,請保存、關閉記事本!
192.168.8.84
192.168.8.85
192.168.8.86
0.0.0.1
256.1.1.1
192.256.256.256
192.255.255.255
aa.bb.cc.dd'''
result = pattern.findall(strs)
print(result)
['192.168.8.84', '192.168.8.85', '192.168.8.86', '0.0.0.1', '56.1.1.1', '192.255.255.255']
7. 日期
常見日期格式:yyyyMMdd、yyyy-MM-dd、yyyy/MM/dd、yyyy.MM.dd
表達式:
d{4}(?:-|/|.)d{1,2}(?:-|/|.)d{1,2}
案例:
pattern = re.compile(r"d{4}(?:-|/|.)d{1,2}(?:-|/|.)d{1,2}")
strs = '今天是2020/12/20,去年的今天是2019.12.20,明年的今天是2021-12-20'
result = pattern.findall(strs)
print(result)
['2020/12/20', '2019.12.20', '2021-12-20']
8. 國內郵政編碼
我國的郵政編碼採用四級六位數編碼結構
前兩位數字表示省(直轄市、自治區)
第三位數字表示郵區;第四位數字表示縣(市)
最後兩位數字表示投遞局(所)
表達式:
[1-9]d{5}(?!d)
案例:
pattern = re.compile(r"[1-9]d{5}(?!d)")
strs = '上海靜安區郵編是200040'
result = pattern.findall(strs)
print(result)
['200040']
9. 密碼
密碼(以字母開頭,長度在6~18之間,只能包含字母、數字和下劃線)
表達式:
[a-zA-Z]w{5,17}
強密碼(以字母開頭,必須包含大小寫字母和數字的組合,不能使用特殊字符,長度在8-10之間)
表達式:
[a-zA-Z](?=.*d)(?=.*[a-z])(?=.*[A-Z]).{8,10}
pattern = re.compile(r"[a-zA-Z]w{5,17}")
strs = '密碼:q123456_abc'
result = pattern.findall(strs)
print(result)
['q123456_abc']
pattern = re.compile(r"[a-zA-Z](?=.*d)(?=.*[a-z])(?=.*[A-Z]).{8,10}")
strs = '強密碼:q123456ABc,弱密碼:q123456abc'
result = pattern.findall(strs)
print(result)
['q123456ABc,']
10. 中文字符
表達式:
[u4e00-u9fa5]
案例:
pattern = re.compile(r"[u4e00-u9fa5]")
strs = 'apple:蘋果'
result = pattern.findall(strs)
print(result)
['蘋', '果']
11. 數字
- 驗證數字:^[0-9]*$
- 驗證n位的數字:^d{n}$
- 驗證至少n位數字:^d{n,}$
- 驗證m-n位的數字:^d{m,n}$
- 驗證零和非零開頭的數字:^(0|[1-9][0-9]*)$
- 驗證有兩位小數的正實數:^[0-9]+(.[0-9]{2})?$
- 驗證有1-3位小數的正實數:^[0-9]+(.[0-9]{1,3})?$
- 驗證非零的正整數:^+?[1-9][0-9]*$
- 驗證非零的負整數:^-[1-9][0-9]*$
- 驗證非負整數(正整數 + 0) ^d+$
- 驗證非正整數(負整數 + 0) ^((-d+)|(0+))$
- 整數:^-?d+$
- 非負浮點數(正浮點數 + 0):^d+(.d+)?$
- 正浮點數 ^(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*))$
- 非正浮點數(負浮點數 + 0) ^((-d+(.d+)?)|(0+(.0+)?))$
- 負浮點數 ^(-(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*)))$
- 浮點數 ^(-?d+)(.d+)?$
12. 字符串
- 英文和數字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
- 長度為3-20的所有字符:^.{3,20}$
- 由26個英文字母組成的字符串:^[A-Za-z]+$
- 由26個大寫英文字母組成的字符串:^[A-Z]+$
- 由26個小寫英文字母組成的字符串:^[a-z]+$
- 由數字和26個英文字母組成的字符串:^[A-Za-z0-9]+$
- 由數字、26個英文字母或者下劃線組成的字符串:^w+$ 或 ^w{3,20}$
- 中文、英文、數字包括下劃線:^[u4E00-u9FA5A-Za-z0-9_]+$
- 中文、英文、數字但不包括下劃線等符號:^[u4E00-u9FA5A-Za-z0-9]+$ 或 ^[u4E00-u9FA5A-Za-z0-9]{2,20}$
- 可以輸入含有^%&’,;=?$」等字符:`[^%&’,;=?$x22]+`
- 禁止輸入含有~的字符:[^~x22]+
附:正則表達式語法詳解






原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/216560.html
微信掃一掃
支付寶掃一掃