python正則表達整理(Python正則表達)

本文目錄一覽:

Python中正則表達式的匹配規則總結

其他關於Python的總結文章請訪問:

正則表達式用來匹配字符串,在python中可以使用 re 模塊來完成,本篇做一個對正則表達式的匹配規則的總結

在上述的精確匹配後可以跟上一些符號來進行模糊的匹配:

可以使用中括號的形式進行範圍匹配,中括號表達式後邊可以跟上上述模糊匹配的符號來表示數量

多個條件可以 緊跟着寫在同一個中括號中 ,比如:

[a-zA-Z] :匹配一個大、小寫字母

python正則表達式是什麼?

正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個“規則字符串”,這個“規則字符串”用來表達對字符串的一種過濾邏輯。

正則表達式是用來匹配字符串非常強大的工具,在其他編程語言中同樣有正則表達式的概念,Python同樣不例外,利用了正則表達式,我們想要從返回的頁面內容提取出我們想要的內容就易如反掌了。

正則表達式的大致匹配過程是:

1、依次拿出表達式和文本中的字符比較。

2、如果每一個字符都能匹配,則匹配成功;一旦有匹配不成功的字符則匹配失敗。

3、如果表達式中有量詞或邊界,這個過程會稍微有一些不同。

python的正則表達式

1,正則表達式的一些內容

        正則表達式主要是用來匹配文本中需要查找的內容,例如在一片文章中找出電話號碼,就中國的來說11位純數字(不說座機),則使用”\d{11}” 意味匹配數字11次,就能準確的查找出文本中的電話號碼. 還有就是在編寫網絡爬蟲的時候需要提取很多超鏈接再次進行爬取,使用正則表達式就很方便.直接匹配http開頭就行,當然也可以使用beautifulsoup的select方法.

看下面的程序看看正則表達提取文本中的郵箱:

\w 匹配字母,數字,下劃線 

+ 匹配1次或者多次

re是正則表達式的工具包,工具包出錯的話在anaconda的命令行輸入”pip install re”安裝,其他的工具包也是如此.

re.compile()中的r示意\不是轉義字符,也就是保持後面字符串原樣,findall返回一個列表.下面還有一個版本的程序略有不同.

compile的另一個參數re.IGONORECASE(忽略大小寫),還可以是re.DORALL,多行模式,具體功能也是模糊不清,不過在使用通配符 . 匹配的時候加上re.DOTALL參數能夠匹配換行.如果希望忽略大小寫和多行模式都開啟可以使用re.compile(r’….’,re.IGNORECASE|re.DOTALL) .

表達式使用( ),對匹配到的內容分為3組 也就是(\w+)出現字母,數字,下劃線一次或多次,這個分組就是下面使用match對象的grou()方法的時候的參數.不給參數和參數0都是得到整個匹配到的內容,  參數1得到第一個括號匹配到的內容,以此類推參數2和3,如果沒有括號分組的話使用參數會出現錯誤.

search( )查找和正則式匹配的內容,只匹一次後面的那個找不到.返回一個match對象

\w 匹配字母,數字,下劃線

\W 匹配字母,數字.下劃線之外的所有字符

\d 匹配數字

\D 匹配非數字

\s 匹配空格,製表符,換行符

\S匹配除空格製表符,換行符之外的其他字符

[ …. ]定義自己的匹配,如[aeiouAEIOU ]匹配所有的元音字母,注意不是匹配單詞.

{最少次數,最多次數},例如{3,9} 匹配3-9次,{ ,10}匹配0-10次. 默認為匹配最多次數(貪心匹配),非貪心模式在後面加上問號 

?  可選 0次或者1次吧  

+匹配1次或多次

*匹配0次或者多次

^ 判斷開頭 ^\d 如果待匹配串是數字開頭則返回第一個數字

$判斷結尾  \d$  如果待匹配串是數字結尾則返回最後一個數字

.   通配符,匹配除換行之外的所有字符

   \d{11}  匹配數字11次

    . * 匹配所有字符除 換行

[a-zA-Z0-9._%+-]  小寫和大寫字母、數字、句點、下劃線、百分號、加號或短橫

[a-zA-Z]{2,4} 匹配字母 2 – 4次

Python其實很簡單 第十一章 正則表達式

正則表達式是一個特殊的字符序列,它用來檢查一個字符串是否與某種模式匹配。正則表達式在編譯程序中至關重要,但並不是每個人都需要特別深入的學習和掌握。在此,只介紹一些最基本的應用。

1、元字符

元字符是構成正則表達式的一些特殊字符。在正則表達式中,元字符被賦予了新的含義。

下面介紹一些常用的元字符及其含義:

. 匹配除換行符以外的任意字符。

w 匹配字母、數字、下劃線或漢字。

W 匹配w所匹配的字符以外的字符。

s 匹配單個空白符(包括Tab鍵和換行符)。

S 匹配除s匹配的字符以外的字符。

d 匹配數字。

b 匹配單詞的分界符,如:空格、標點符號或換行符。

^ 匹配字符串的開始

$ 匹配字符串的結束

2、限定符

限定符是在正則表達式中用來指定數量的字符。常用的限定符有:

? 匹配前面的字符0或1次。如:zo?m可以匹配zom和zm,但不能匹配 zoom

+ 匹配前面的字符1或n次。如:zo?m可以匹配zom和zoom,但不能匹配zm

* 匹配前面的字符0或n次。如:zo?m可以匹配zom、zoom和zm

{n} 匹配前面的字符n次。如:zo{2}m可以匹配zoom,但不能匹配zom和zm

{n,} 匹配前面的字符至少n次。如:zo{1,}m可以匹配zom和zoom,但不能匹配zm

{n,m} 匹配前面的字符至少n次,最多m次。如:zo{1,2}m可以匹配zom和zoom,但不能匹配zm

3、方括號”[ ]”的用途

方括號“[ ]”里可以列出某個字符範圍。如:[aeiou]表示匹配任意一個元音字母,[zqsl]表示匹配姓氏“趙錢孫李”的拼音第一個字母。

4、排除字符

方括號”[ ]”中的“^”字符表示排除的意思,如:[^aeiou]表示匹配任意一個非元音字母的字符。

5、選擇字符

字符“|”相當於“或”。如:(^d{3}[-]d{8})|(^d{4}[-]d{7})$可以匹配形如” – ”或“ – ”的電話號碼格式。

6、轉義字符

對於已經用於定義元字符和限定符的字符,需要加轉義符“”來表示。

如:為了匹配形如“192.168.0.1”的IPv4地址(1~255.0~255.0~255.0~255),可以用這樣的正則表達式:^(25[0-5]|2[0-4][0-9]|[0,1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]).(25[0-5]|2[0-4][0-9]|[0,1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0).(25[0-5]|2[0-4][0-9]|[0,1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[1-9]|0).(25[0-5]|2[0-4][0-9]|[0,1]{1}[0-9]{2}|[1-9]{1}[0-9]{1}|[0-9])$

這裡解釋一下第一段IP地址的規則,取值範圍為1~255,可分解為以下情況:

250~255:25[0-5];

200~249:2[0-4][0-9];

100~199:[01]{1}[0-9]{2};

0~99: [0-9]{1}[1-9]

再加上”.”: .

其他三段地址和第一段相似。

7、“( )”可以用於分組

在正則表達式中,用“( )”括起來的部分是一個整體。

8、r(或R)的意義

在正則表達式中,為了保證模式字符串為原生字符串(沒有經過加工處理的字符串),可以在模式字符串前加上一個字符‘r’或‘R’。例如:

# 這裡用到對的re.match()方法接下來介紹

import re # 導入re模塊

re.match(‘bPy[a-z]+’,’Python’) # 表達式’bPy[a-z]+’不能匹配’Python’

re.match(‘bPy[a-z]+’,’Python’) # 表達式’bPy[a-z]+’可以匹配’Python’

在上述代碼中,原本要用作匹配單詞開始或結束的元字符’b’在表達式中字符串中會被視為轉義一個字符‘b’,為了轉義’b’就不得不再加一個’’符號。

也可以採用下面的方法:

re.match(r’bPy[a-z]+’,’Python’) #加字符’r’,可以保證原生字符串

9、match()方法

Match()方法 嘗試從字符串的起始位置匹配一個模式,如果不是起始位置匹配成功的話,match() 就返回 none。

語法格式:

re.match(pattern, string, [flags])

其中,pattern表示匹配的正則表達式;string是要匹配的字符串;flags表示標誌位,用於控制正則表達式的匹配方式,如:re.I表示不區分大小寫。

例:

import re #導入re模塊

print(re.match(‘www’, ”).span()) #span()函數可以獲取匹配的位置

print(re.match(‘org’, ”))

輸出結果為:

(0, 3) #在位置0到3(不包括3)匹配成功

None #從起始位置未能匹配成功

10、search()方法

search()方法用於在整個字符串中搜索第一個匹配的值,如果匹配成功,則返回Match對象,否則返回None。

語法格式:

re.search(pattern, string, [flags])

其中,pattern表示匹配的正則表達式;string是要匹配的字符串;flags表示標誌位,用於控制正則表達式的匹配方式,如:re.I表示不區分大小寫。

例如:

re.search(r’Pyw+’,’It’s easy to use Python, but it’s not easy to learn Python.’)

可以看出,目標字符串“It’s easy to use Python, but it’s not easy to learn Python.”中一共有兩個‘Python’,search()方法可以從字符串的起始位置開始查找到‘Python’,當找到第一個匹配值後就停止查找,返回位置信息。

match()和search()的比較

match()要求目標字符串的起始位置就能匹配,search()對目標字符串全段進行逐次匹配,只要首次匹配成功就停止匹配。

請看下例:

import re

print(re.match(r’Pyw+’,’It’s easy to use Python, but it’s not easy to learn Python.’))

輸出結果:None

11、findall()方法

findall()方法用於在整個字符串中搜索所有匹配的值,如果匹配成功,則返回以匹配值為元素的列表,否則返回空列表。

語法格式:

re.findall(pattern, string[, flags])

其中,pattern表示匹配的正則表達式;string是要匹配的字符串;flags表示標誌位,用於控制正則表達式的匹配方式,如:re.I表示不區分大小寫。

例:

import re

print(re.findall(r’Pyw+’,’It’s easy to use Python, but it’s not easy to learn Python.’))

輸出結果:[‘Python’, ‘Python’]

可以看出,findall()的結果沒有指出匹配的具體位置。

12、正則表達式的應用

字符串替換

這裡要用到sub()方法。它的語法格式如下:

re.sub(pattern, repl, string [,count] [,flgs])

其中,pattern是模式字符串;repl是用於替換的字符串;string是原字符串;可選參數count為模式匹配後替換的最大次數,省缺表示替換所有的匹配;可選參數flags的意義與前面的方法的該參數一致。

例:

import re

str1=’x=36.567 y=123.234′

str2=re.sub(‘.d+’,”,str1) #用空格代替小數點及其後的數字

print(str2)

輸出結果:x=36 y=123

分隔字符串

這裡要用到split()方法。它的返回值為一個列表,它的語法格式如下:

re.split(pattern, string [,maxsplit] [,flgs])

其中,pattern是模式字符串;string是原字符串;可選參數maxsplit為最大拆分次數,省缺表示拆分所有的匹配;可選參數flags的意義與前面的方法的該參數一致。

例:

import re

str=’白日依山盡,黃河入海流。欲窮千里目,更上一層樓!’

re.split(r’,|。|!’,str) #按照“,”、“。”、“!”分隔字符串。

[‘白日依山盡’, ‘黃河入海流’, ‘欲窮千里目’, ‘更上一層樓’, ”]

注意,返回值列表中多出了一個空字符。

學Python正則表達式,這一篇就夠了

正則表達式是一個特殊的字符序列,可以幫助您使用模式中保留的專門語法來匹配或查找其他字符串或字符串集。 正則表達式在UNIX世界中被廣泛使用。

註:很多開發人員覺得正則表達式比較難以理解,主要原因是缺少使用或不願意在這上面花時間。

re模塊在Python中提供對Perl類正則表達式的完全支持。如果在編譯或使用正則表達式時發生錯誤,則re模塊會引發異常re.error。

在這篇文章中,將介紹兩個重要的功能,用來處理正則表達式。 然而,首先是一件小事:有各種各樣的字符,這些字符在正則表達式中使用時會有特殊的意義。 為了在處理正則表達式時避免混淆,我們將使用:r’expression’原始字符串。

匹配單個字符的基本模式

編譯標誌可以修改正則表達式的某些方面。標誌在re模塊中有兩個名稱:一個很長的名稱,如IGNORECASE,和一個簡短的單字母形式,如。

1.match函數

此函數嘗試將RE模式與可選標誌的字符串進行匹配。

下面是函數的語法 :

這裡是參數的描述 :

pattern : 這是要匹配的正則表達式。

string : 這是字符串,它將被搜索用於匹配字符串開頭的模式。 |

flags : 可以使用按位OR(|)指定不同的標誌。 這些是修飾符,如下表所列。

re.match函數在成功時返回匹配對象,失敗時返回None。使用match(num)或groups()函數匹配對象來獲取匹配的表達式。

示例

當執行上述代碼時,會產生以下結果 :

2.search函數

此函數嘗試將RE模式與可選標誌的字符串進行匹配。

下面是這個函數的語法 :

這裡是參數的描述 :

pattern : 這是要匹配的正則表達式。

string : 這是字符串,它將被搜索用於匹配字符串開頭的模式。 |

flags : 可以使用按位OR(|)指定不同的標誌。 這些是修飾符,如下表所列。

re.search函數在成功時返回匹配對象,否則返回None。使用match對象的group(num)或groups()函數來獲取匹配的表達式。

示例

當執行上述代碼時,會產生以下結果 :

3.匹配與搜索

Python提供基於正則表達式的兩種不同的原始操作:match檢查僅匹配字符串的開頭,而search檢查字符串中任何位置的匹配(這是Perl默認情況下的匹配)。

示例

當執行上述代碼時,會產生以下結果 :

4.搜索和替換

使用正則表達式re模塊中的最重要的之一是sub。

模塊

此方法使用repl替換所有出現在RE模式的字符串,替換所有出現,除非提供max。此方法返回修改的字符串。

示例

當執行上述代碼時,會產生以下結果 :

5.正則表達式修飾符:選項標誌

正則表達式文字可能包含一個可選修飾符,用於控制匹配的各個方面。 修飾符被指定為可選標誌。可以使用異或(|)提供多個修飾符,如前所示,可以由以下之一表示 :

6.正則表達模式

除了控制字符(+ ? . * ^ $ ( ) [ ] { } | ),所有字符都與其自身匹配。 可以通過使用反斜杠將其轉換為控制字符。

7.正則表達式示例

字符常量

字符類

特殊字符類

重複匹配

非貪婪重複

這匹配最小的重複次數 :

用圓括號分組

反向引用

這與以前匹配的組再次匹配 :

備擇方案

python|perl : 匹配“python”或“perl”

rub(y|le) : 匹配 “ruby” 或 “ruble”

Python(!+|?) : “Python”後跟一個或多個! 還是一個?

錨點

這需要指定匹配位置。

帶括號的特殊語法

開課吧廣場-人才學習交流平台-開課吧

python正則表達式是什麼呢?

python正則表達式如下:

在python中,所謂的“正則表達式”指的是通常被用來檢索、替換那些符合某個模式的一段文本。具體而言,它的作用是檢測某個字符串是否符合規則和提取網頁字符串中想要的數據。

正則表達式是對字符串提取的一套規則,我們把這個規則用正則裡面的特定語法表達出來,去匹配滿足這個規則的字符串。正則表達式具有通用型,不僅python裡面可以用,其他的語言也一樣適用。

python的編程特點:

速度快:Python的底層是用C語言寫的,很多標準庫和第三方庫也都是用C寫的,運行速度非常快。

免費、開源:Python是FLOSS(自由/開放源碼軟件)之一。使用者可以自由地發布這個軟件的拷貝、閱讀它的源代碼、對它做改動、把它的一部分用於新的自由軟件中。FLOSS是基於一個團體分享知識的概念。

高層語言:用Python語言編寫程序的時候無需考慮諸如如何管理你的程序使用的內存一類的底層細節。

解釋性:一個用編譯性語言比如C或C++寫的程序可以從源文件(即C或C++語言)轉換到一個你的計算機使用的語言(二進制代碼,即0和1)。這個過程通過編譯器和不同的標記、選項完成。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/253869.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-14 02:17
下一篇 2024-12-14 02:17

相關推薦

  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • 蝴蝶優化算法Python版

    蝴蝶優化算法是一種基於仿生學的優化算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化算法Python版…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智能、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29

發表回復

登錄後才能評論