登陸天善社區查看更多系列：

Python3中BeautifulSoup的使用方法

Python3中PyQuery的使用方法

Python3中Selenium使用方法

正則表達式

本節我們看一下正則表達式的相關用法，正則表達式是處理字元串的強大的工具，它有自己特定的語法結構，有了它，實現字元串的檢索、替換、匹配驗證都不在話下。

當然對於爬蟲來說，有了它，我們從HTML裡面提取我們想要的信息就非常方便了。

實例引入

說了這麼多，可能我們對它到底是個什麼還是比較模糊，下面我們就用幾個實例來感受一下正則表達式的用法。

我們打開開源中國提供的正則表達式測試工具
http://tool.oschina.net/regex/，打開之後我們可以輸入待匹配的文本，然後選擇常用的正則表達式，就可以從我們輸入的文本中得出相應的匹配結果了。

例如我們在這裡輸入待匹配的文本如下：

這段字元串中包含了一個電話號碼和一個電子郵件，接下來我們就嘗試用正則表達式提取出來。

我們在網頁中選擇匹配Email地址，就可以看到在下方出現了文本中的Email。如果我們選擇了匹配網址URL，就可以看到在下方出現了文本中的URL。是不是非常神奇？

其實，在這裡就是用了正則表達式匹配，也就是用了一定的規則將特定的文本提取出來。比如電子郵件它開頭是一段字元串，然後是一個@符號，然後就是某個域名，這是有特定的組成格式的。另外對於URL，開頭是協議類型，然後是冒號加雙斜線，然後是域名加路徑。

對於URL來說，我們就可以用下面的正則表達式匹配：

如果我們用這個正則表達式去匹配一個字元串，如果這個字元串中包含類似URL的文本，那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團，其實不然，這裡面都是有特定的語法規則的。比如a-z代表匹配任意的小寫字母，s表示匹配任意的空白字元，*就代表匹配前面的字元任意多個，這一長串的正則表達式就是這麼多匹配規則的組合，最後實現特定的匹配功能。

寫好正則表達式後，我們就可以拿它去一個長字元串里匹配查找了，不論這個字元串裡面有什麼，只要符合我們寫的規則，統統可以找出來。那麼對於網頁來說，如果我們想找出網頁源代碼里有多少URL，就可以用匹配URL的正則表達式去匹配，就可以得到源碼中的URL了。

在上面我們說了幾個匹配規則，那麼正則表達式的規則到底有多少？那麼在這裡把常用的匹配規則總結一下：

模式描述

w匹配字母數字及下劃線

W匹配非字母數字及下劃線

s匹配任意空白字元，等價於 [tnrf].

S匹配任意非空字元

d匹配任意數字，等價於 [0-9]

D匹配任意非數字

A匹配字元串開始

Z匹配字元串結束，如果是存在換行，只匹配到換行前的結束字元串

z匹配字元串結束

G匹配最後匹配完成的位置

n匹配一個換行符

t匹配一個製表符

^匹配字元串的開頭

$匹配字元串的末尾。

.匹配任意字元，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字元。

[…]用來表示一組字元,單獨列出：[amk] 匹配 ‘a’，’m’或’k’

[^…]不在[]中的字元：[^abc] 匹配除了a,b,c之外的字元。

*匹配0個或多個的表達式。

+匹配1個或多個的表達式。

?匹配0個或1個由前面的正則表達式定義的片段，非貪婪方式

{n}精確匹配n個前面表達式。

{n, m}匹配 n 到 m 次由前面的正則表達式定義的片段，貪婪方式

a|b匹配a或b

( )匹配括弧內的表達式，也表示一個組

可能完了之後就有點暈暈的了把，不用擔心，下面我們會詳細講解下一些常見的規則的用法。怎麼用它來從網頁中提取我們想要的信息。

Python中使用

其實正則表達式不是Python獨有的，它在其他編程語言中也可以使用，但是Python的re庫提供了整個正則表達式的實現，利用re庫我們就可以在Python中使用正則表達式來，在Python中寫正則表達式幾乎都是用的這個庫。

下面我們就來了解下它的用法。

match()

在這裡首先介紹第一個常用的匹配方法，match()方法，我們向這個方法傳入要匹配的字元串以及正則表達式，就可以來檢測這個正則表達式是否匹配字元串了。

match()方法會嘗試從字元串的起始位置匹配正則表達式，如果匹配，就返回匹配成功的結果，如果不匹配，那就返回None。

我們用一個實例來感受一下：

在這裡我們首先聲明了一個字元串，包含英文字母、空白字元、數字等等內容，接下來我們寫了一個正則表達式^Hellosdddsd{4}sw{10}來匹配這個長字元串。

開頭的^是匹配字元串的開頭，也就是以Hello開頭，然後s匹配空白字元，用來匹配目標字元串的空格，d匹配數字，三個d匹配123，然後再寫一個s匹配空格，後面還有4567，我們其實可以依然用四個d來匹配，但是這麼寫起來比較繁瑣，所以在後面可以跟{4}代表匹配前面的字元四次，也就是匹配四個數字，這樣也可以完成匹配，然後後面再緊接一個空白字元，然後w{10}匹配10個字母及下劃線，正則表達式到此為止就結束了，我們注意到其實並沒有把目標字元串匹配完，不過這樣依然可以進行匹配，只不過匹配結果短一點而已。

我們調用match()方法，第一個參數傳入了正則表達式，第二個參數傳入了要匹配的字元串。

列印輸出一下結果，可以看到結果是SRE_Match對象，證明成功匹配，它有兩個方法，group()方法可以輸出匹配到的內容，結果是Hello 123 4567 World_This，這恰好是我們正則表達式規則所匹配的內容，span()方法可以輸出匹配的範圍，結果是(0, 25)，這個就是匹配到的結果字元串在原字元串中的位置範圍。

通過上面的例子我們可以基本了解怎樣在Python中怎樣使用正則表達式來匹配一段文字。

匹配目標

剛才我們用了match()方法可以得到匹配到的字元串內容，但是如果我們想從字元串中提取一部分內容怎麼辦呢？就像最前面的實例一樣，從一段文本中提取出郵件或電話號等內容。

在這裡可以使用()括弧來將我們想提取的子字元串括起來，()實際上就是標記了一個子表達式的開始和結束位置，被標記的每個子表達式會依次對應每一個分組，我們可以調用group()方法傳入分組的索引即可獲取提取的結果。

下面我們用一個實例感受一下：

依然是前面的字元串，在這裡我們想匹配這個字元串並且把其中的1234567提取出來，在這裡我們將數字部分的正則表達式用()括起來，然後接下來調用了group(1)獲取匹配結果。

運行結果如下：

可以看到在結果中成功得到了1234567，我們獲取用的是group(1)，與group()有所不同，group()會輸出完整的匹配結果，而group(1)會輸出第一個被()包圍的匹配結果，假如正則表達式後面還有()包括的內容，那麼我們可以依次用group(2)、group(3)等來依次獲取。

通用匹配

剛才我們寫的正則表達式其實比較複雜，出現空白字元我們就寫s匹配空白字元，出現數字我們就寫d匹配數字，工作量非常大，其實完全沒必要這麼做，還有一個萬能匹配可以用，也就是.*，.可以匹配任意字元(除換行符)，*又代表匹配前面的字元無限次，所以它們組合在一起就可以匹配任意的字元了，有了它我們就不用挨個字元地匹配了。

所以接著上面的例子，我們可以改寫一下正則表達式。

在這裡我們將中間的部分直接省略，全部用.*來代替，最後加一個結尾字元串就好了，運行結果如下：

可以看到group()方法輸出了匹配的全部字元串，也就是說我們寫的正則表達式匹配到了目標字元串的全部內容，span()方法輸出(0, 41)，是整個字元串的長度。

因此，我們可以在使用.*來簡化正則表達式的書寫。

貪婪匹配與非貪婪匹配

在使用上面的通用匹配.*的時候可能我們有時候匹配到的並不是想要的結果，我們看下面的例子：

在這裡我們依然是想獲取中間的數字，所以中間我們依然寫的是(d+)，數字兩側由於內容比較雜亂，所以兩側我們想省略來寫，都寫.*，最後組成^He.*(d+).*Demo$，看樣子並沒有什麼問題，我們看下運行結果：

奇怪的事情發生了，我們只得到了7這個數字，這是怎麼回事？

這裡就涉及一個貪婪匹配與非貪婪匹配的原因了，貪婪匹配下，.*會匹配儘可能多的字元，我們的正則表達式中.*後面是d+，也就是至少一個數字，並沒有指定具體多少個數字，所以.*就儘可能匹配多的字元，所以它把123456也匹配了，給d+留下一個可滿足條件的數字7，所以d+得到的內容就只有數字7了。

但這樣很明顯會給我們的匹配帶來很大的不便，有時候匹配結果會莫名其妙少了一部分內容。其實這裡我們只需要使用非貪婪匹配匹配就好了，非貪婪匹配的寫法是.*?，多了一個?，那麼它可以達到怎樣的效果？我們再用一個實例感受一下：

在這裡我們只是將第一個.*改成了.*?，轉變為非貪婪匹配匹配。結果如下：

很好，這下我們就可以成功獲取1234567了。原因可想而知，貪婪匹配是儘可能匹配多的字元，非貪婪匹配就是儘可能匹配少的字元，.*?之後是d+用來匹配數字，當.*?匹配到Hello後面的空白字元的時候，再往後的字元就是數字了，而d+恰好可以匹配，那麼這裡.*?就不再進行匹配，交給d+去匹配後面的數字。所以這樣，.*?匹配了儘可能少的字元，d+的結果就是1234567了。

所以說，在做匹配的時候，字元串中間我們可以盡量使用非貪婪匹配來匹配，也就是用.*?來代替.*，以免出現匹配結果缺失的情況。

但這裡注意，如果匹配的結果在字元串結尾，.*?就有可能匹配不到任何內容了，因為它會匹配儘可能少的字元，例如：

觀察到.*?沒有匹配到任何結果，而.*則盡量匹配多的內容，成功得到了匹配結果。

所以在這裡好好體會一下貪婪匹配和非貪婪匹配的原理，對後面寫正則表達式非常有幫助。

修飾符

正則表達式可以包含一些可選標誌修飾符來控制匹配的模式。修飾符被指定為一個可選的標誌。

我們用一個實例先來感受一下：

和上面的例子相仿，我們在字元串中加了個換行符，正則表達式也是一樣的來匹配其中的數字，看一下運行結果：

運行直接報錯，也就是說正則表達式沒有匹配到這個字元串，返回結果為None，而我們又調用了group()方法所以導致AttributeError。

那我們加了一個換行符為什麼就匹配不到了呢？是因為.匹配的是除換行符之外的任意字元，當遇到換行符時，.*?就不能匹配了，所以導致匹配失敗。

那麼在這裡我們只需要加一個修飾符re.S，即可修正這個錯誤。

在match()方法的第三個參數傳入re.S，它的作用是使.匹配包括換行符在內的所有字元。

運行結果：

這個re.S在網頁匹配中會經常用到，因為HTML節點經常會有換行，加上它我們就可以匹配節點與節點之間的換行了。

另外還有一些修飾符，在必要的情況下也可以使用：

修飾符描述

re.I使匹配對大小寫不敏感

re.L做本地化識別（locale-aware）匹配

re.M多行匹配，影響 ^ 和 $

re.S使 . 匹配包括換行在內的所有字元

re.U根據Unicode字符集解析字元。這個標誌影響 w, W, b, B.

re.X該標誌通過給予你更靈活的格式以便你將正則表達式寫得更易於理解。

在網頁匹配中較為常用的為re.S、re.I。

轉義匹配

我們知道正則表達式定義了許多匹配模式，如.匹配除換行符以外的任意字元，但是如果目標字元串裡面它就包含.我們改怎麼匹配？

那麼這裡就需要用到轉義匹配了，我們用一個實例來感受一下：

當遇到用於正則匹配模式的特殊字元時，我們在前面加反斜線來轉義一下就可以匹配了。例如.我們就可以用.來匹配，運行結果：

可以看到成功匹配到了原字元串。

以上是寫正則表達式常用的幾個知識點，熟練掌握上面的知識點對後面我們寫正則表達式匹配非常有幫助。

search()

我們在前面提到過match()方法是從字元串的開頭開始匹配，一旦開頭不匹配，那麼整個匹配就失敗了。

我們看下面的例子：

在這裡我們有一個字元串，它是以Extra開頭的，但是正則表達式我們是以Hello開頭的，整個正則表達式是字元串的一部分，但是這樣匹配是失敗的，也就是說只要第一個字元不匹配整個匹配就不能成功，運行結果如下：

None

所以match()方法在我們在使用的時候需要考慮到開頭的內容，所以在做匹配的時候並不那麼方便，它適合來檢測某個字元串是否符合某個正則表達式的規則。

所以在這裡就有另外一個方法search()，它在匹配時會掃描整個字元串，然後返回第一個成功匹配的結果，也就是說，正則表達式可以是字元串的一部分，在匹配時，search()方法會依次掃描字元串，直到找到第一個符合規則的字元串，然後返回匹配內容，如果搜索完了還沒有找到，那就返回None。

我們把上面的代碼中的match()方法修改成search()，再看下運行結果：

這樣就得到了匹配結果。

所以說，為了匹配方便，我們可以盡量使用search()方法。

下面我們再用幾個實例來感受一下search()方法的用法。

首先這裡有一段待匹配的HTML文本，我們接下來寫幾個正則表達式實例來實現相應信息的提取。

觀察到<ul>節點裡面有許多<li>節點，其中<li>節點有的包含<a>節點，有的不包含<a>節點，<a>節點還有一些相應的屬性，超鏈接和歌手名。

首先我們嘗試提取class為active的<li>節點內部的超鏈接包含的歌手名和歌名。

所以我們需要提取第三個<li>節點下的<a>節點的singer屬性和文本。

所以正則表達式可以以<li>開頭，然後接下來尋找一個標誌符active，中間的部分可以用.*?來匹配，然後接下來我們要提取singer這個屬性值，所以還需要寫入singer="(.*?)"，我們需要提取的部分用小括弧括起來，以便於用group()方法提取出來，它的兩側邊界是雙引號，然後接下來還需要匹配<a>節點的文本，那麼它的左邊界是>，右邊界是</a>，所以我們指定一下左右邊界，然後目標內容依然用(.*?)來匹配，所以最後的正則表達式就變成了<li.*?active.*?singer="(.*?)">(.*?)</a>'，然後我們再調用search()方法，它便會搜索整個HTML文本，找到符合正則表達式的第一個內容返回。

另外由於代碼有換行，所以這裡第三個參數需要傳入re.S

所以整個匹配代碼如下：