利用正則表達式提取文本中的信息

正則表達式是一種用於捕獲特定信息的工具，在網絡爬蟲和數據挖掘等領域廣泛使用。本文將介紹如何使用正則表達式來提取文本信息。

一、爬蟲正則表達式怎麼提取文本

在編寫爬蟲時，我們經常需要從網頁中提取特定的信息。例如，我們可以使用正則表達式來提取網頁中的所有鏈接，或是從特定標籤中提取文本。

以提取網頁中的所有鏈接為例，我們可以使用以下正則表達式：

import re
import urllib.request

url = "https://www.example.com"
req = urllib.request.urlopen(url)
html = req.read().decode("utf-8")
links = re.findall('', html)
print(links)

以上代碼使用urllib庫讀取網頁內容，然後使用re.findall方法從中提取所有標籤中的鏈接。

如果我們想要提取特定標籤中的文本，我們可以使用類似以下的正則表達式：

import re

text = "hello world"
match = re.search('(.*?)', text)
if match:
    print(match.group(1))

以上代碼使用re.search方法從文本中匹配包含在

標籤中的文本，並輸出結果”hello world”。

二、正則表達式怎麼提取文本

使用正則表達式提取文本時，我們通常會按照特定的規則來匹配需要提取的內容。

例如，我們可以使用以下正則表達式從一段文本中提取所有數字：

import re

text = "the price is $19.99"
match = re.findall('\d+', text)
print(match)

以上代碼使用re.findall方法匹配文本中的所有數字，並輸出結果[“19”, “99”]。

除了使用通用的規則來匹配文本，我們還可以根據具體情況來定製正則表達式。

例如，在手機號碼驗證中我們可以使用以下正則表達式：

import re

phone = "13712345678"
match = re.match('^1[3-9]\d{9}$', phone)
if match:
    print("Valid phone number.")
else:
    print("Invalid phone number.")

以上代碼使用re.match方法匹配電話號碼是否符合特定格式，如果符合則輸出”Valid phone number.”，否則輸出”Invalid phone number.”。

三、常用正則表達式語法

在使用正則表達式時，一些常用的語法可以讓我們更加靈活地提取信息。

{m,n} 匹配前一個字符出現m~n次，其中m和n為非負整數。

以上語法可以組合使用，以構建更為複雜的正則表達式。

例如，在匹配一個郵件地址時，我們可以使用以下正則表達式：

import re

email = "johndoe@example.com"
match = re.match('^[\w\.-]+@[\w\.-]+\.\w{2,}$', email)
if match:
    print("Valid email address.")
else:
    print("Invalid email address.")

以上代碼使用re.match方法匹配郵件地址是否符合特定格式，如果符合則輸出”Valid email address.”，否則輸出”Invalid email address.”。