使用lxml库解析HTML文档的Python代码示例

一、lxml库介绍

lxml是Python的一个HTML/XML解析库，可以解析HTML、XML以及各种文档。lxml同时也是Python中最快速、最灵活的解析器之一，还支持XPath和CSS选择器，并提供一些方便的API来遍历文档树、从中提取数据以及修改元素。

基于C编写，lxml的速度远超Beautiful Soup等Python库，是数据分析和Web爬虫领域不可替代的工具。

二、简单解析HTML文档

在使用lxml解析HTML文档之前，需要使用pip安装lxml库。

import requests
from lxml import html

url = 'https://www.baidu.com'
response = requests.get(url)
content = response.content

tree = html.fromstring(content)
print(tree)

代码中，我们使用requests库获取百度首页的HTML文档，然后使用lxml库的fromstring函数将文档转化为lxml.etree.Element对象，并打印出来。

三、XPath选择器

XPath选择器是lxml的重要功能之一，它提供了一种灵活并且高效的方式来选择HTML文档中的特定元素或者实现定位元素。

import requests
from lxml import html

url = 'https://www.baidu.com'
response = requests.get(url)
content = response.content

tree = html.fromstring(content)
result = tree.xpath('//title/text()')
print(result)

代码中，我们使用requests获取百度首页的HTML文档，将文档转化为lxml.etree.Element对象，并使用XPath选择器提取出文档中title标签的文本内容。运行上述代码，可以得到返回结果为百度首页的标题。

四、CSS选择器

CSS选择器也是lxml支持的选择器之一，它语法简单，直接，易于学习和使用。

import requests
from lxml import html

url = 'https://www.baidu.com'
response = requests.get(url)
content = response.content

tree = html.fromstring(content)
result = tree.cssselect('title')[0].text
print(result)

代码中，我们使用requests获取百度首页的HTML文档，将文档转化为lxml.etree.Element对象，并使用CSS选择器提取出文档中title标签的文本内容。运行上述代码，可以得到返回结果为百度首页的标题。

五、遍历文档树

在解析HTML文档时，我们通常需要遍历整个文档树，以便访问它的自己和子元素。lxml提供了一些API方便我们遍历文档树。

import requests
from lxml import html

url = 'https://www.baidu.com'
response = requests.get(url)
content = response.content

tree = html.fromstring(content)
for element in tree.iter():
    print(element.tag)

代码中，我们使用requests获取百度首页的HTML文档，将文档转化为lxml.etree.Element对象，并遍历整个文档树，打印元素标签名。

六、修改元素

解析HTML文档后，我们还可以使用lxml库修改HTML文档中的元素，比如给文档中所有的a标签添加一个target属性。

import requests
from lxml import html

url = 'https://www.baidu.com'
response = requests.get(url)
content = response.content

tree = html.fromstring(content)
for element in tree.iter('a'):
    element.set('target', '_blank')

print(html.tostring(tree))

代码中，我们使用requests获取百度首页的HTML文档，将文档转化为lxml.etree.Element对象，然后遍历所有的a标签，给它们添加一个target属性，并打印出修改后的HTML文档。

七、总结

使用lxml库可以快速、灵活地解析HTML文档，并提取其中的数据，而且还支持XPath和CSS选择器，以及遍历文档树、修改元素等功能，是数据分析和Web爬虫的利器。

原创文章，作者：小蓝，如若转载，请注明出处：https://www.506064.com/n/219578.html