正则表达式是一种强大的字符串匹配工具,可以从一段文本中提取感兴趣的信息。在Python中,re模块提供了对正则表达式的支持。本文将介绍如何使用正则表达式来提取文本信息。
一、正则表达式怎么提取文本
正则表达式通过使用不同的元字符来描述文本中的模式。使用re模块中提供的函数可以对文本进行搜索匹配,从而实现对感兴趣信息的提取。
例如,如果想要提取文本中所有的数字,可以使用如下正则表达式:
import re text = "Hello, my phone number is 123-456-7890." pattern = r'\d+' result = re.findall(pattern, text) print(result)
上述代码中,使用了re模块的findall函数来匹配文本中所有符合正则表达式的模式,并返回匹配的结果。其中,模式“\d+”表示匹配一串数字。
化学元素周期表中的化学元素通常包含原子序数、元素符号、元素名称和原子量等信息。如果你想要从元素周期表的网页中提取这些信息,可以使用如下正则表达式来匹配:
import re import requests url = 'https://www.ptable.com' html = requests.get(url).text pattern = r'(\d+) \s+([A-Z][a-z]?) \s+\s+(.+)\s+ \s+(\d+\.\d+) ' result = re.findall(pattern, html) print(result)
上述代码中,使用requests模块获取元素周期表网页的HTML代码,并使用正则表达式匹配出其中的元素信息。
二、爬虫正则表达式怎么提取文本
在爬虫中,正则表达式也是一种十分实用的工具。通过使用正则表达式,我们可以方便地提取网页中感兴趣的信息,并进行进一步地处理。
下面以爬取知乎问题页面为例,介绍如何使用正则表达式提取问题标题和答案内容。
import re
import requestsurl = 'https://www.zhihu.com/question/55378499'
html = requests.get(url).text
pattern = r'.*?(.*?)原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/152813.html