Python解析HTML

一、Python解析HTML文檔

Python可以使用自帶的HTMLParser模塊或第三方庫，如BeautifulSoup、lxml等解析HTML文檔。使用HTMLParser模塊解析HTML文檔需要自己編寫一個HTML解析器，對HTML標籤進行逐個解析，並在解析的過程中處理文本數據和標籤屬性。以下是一個使用HTMLParser的示例代碼：


from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        print("Start tag:", tag)
        for attr in attrs:
            print("  Attr:", attr)

    def handle_endtag(self, tag):
        print("End tag  :", tag)

    def handle_data(self, data):
        print("Data     :", data)

parser = MyHTMLParser()
parser.feed('<html><head></head><body><p>Hello, world!</p></body></html>')

運行上面的代碼可以輸出HTML文檔中的標籤和文本數據。

二、Python解析HTML網頁表格

一些HTML頁面可能會包含表格，可以使用以下示例代碼來解析這種頁面：


import requests
from bs4 import BeautifulSoup

URL = "https://www.w3schools.com/html/html_tables.asp"
response = requests.get(URL)
soup = BeautifulSoup(response.text, "lxml")

table = soup.find('table')
rows = table.find_all('tr')

for row in rows:
    cols = row.find_all('td')
    cols = [col.text.strip() for col in cols]
    print(cols)

運行上面的代碼可以將網頁表格中的每一行數據輸出。

三、Python解析HTML標籤

使用Python解析HTML標籤就需要了解HTML標籤的基本格式和含義。以下是一些常用的HTML標籤：

<html>：定義一個HTML文檔
<head>：定義文檔的頭部，包含文檔的元數據信息
<body>：定義文檔的主體部分
<div>：定義文檔中的一個區域
<h1>～<h6>：定義標題，h1是最高級別的標題
<p>：定義段落
<ul>和<li>：定義無序列表及其項
<ol>和<li>：定義有序列表及其項
<a>：定義超鏈接
<img>：定義圖片
<table>、<tr>和<td>：定義表格及其行、列
<form>：定義用戶輸入表單

四、Python解析HTML文件

Python可以使用內置的open函數打開HTML文件，並將其讀取為單個字符串，然後使用相應的HTML解析器處理該字符串。


from html.parser import HTMLParser

with open('test.html') as f:
    html = f.read()

class MyHTMLParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        print("Start tag:", tag)
        for attr in attrs:
            print("  Attr:", attr)

    def handle_endtag(self, tag):
        print("End tag  :", tag)

    def handle_data(self, data):
        print("Data     :", data)

parser = MyHTMLParser()
parser.feed(html)

運行上面的代碼可以解析HTML文件中的標籤和文本數據。

五、Python解析HTML模塊

Python有多個常用於解析HTML的模塊，其中比較受歡迎的是BeautifulSoup和lxml。以下是使用BeautifulSoup獲取HTML頁面中所有的鏈接的示例代碼：


import requests
from bs4 import BeautifulSoup

URL = "https://github.com/"
response = requests.get(URL)
soup = BeautifulSoup(response.text, "html.parser")

links = []
for link in soup.find_all('a'):
    links.append(link.get('href'))

print(links)

運行上面的代碼可以獲取指定URL頁面中所有的鏈接。

六、Python解析HTML和XML的第三方庫

Python有多個第三方庫可以用於解析HTML或XML，如lxml、xml.etree.ElementTree等。以下是使用lxml解析HTML的示例代碼：


from lxml import html

URL = 'https://www.baidu.com'
page = requests.get(URL)
tree = html.fromstring(page.content)

print(tree.xpath('//title/text()'))

運行上面的代碼可以獲取指定URL頁面的標題。

七、Python解析HTML兩問

問題一：如何編寫一個HTML解析器？

答：需要使用Python自帶的HTMLParser模塊，並繼承該模塊的HTMLParser類，並實現相應的回調函數，如handle_starttag、handle_endtag、handle_data等。

問題二：如何使用BeautifulSoup解析含有多個class的HTML標籤？

答：可以使用find_all方法，並將class_參數設置為一個列表，如soup.find_all(‘div’, class_=[‘class1’, ‘class2’])。

八、Python解析HTML標籤生成字典

可以使用Python的字典類型來存儲HTML標籤的屬性和值。以下是一個示例代碼：


from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):
    def __init__(self):
        self.result = []
        HTMLParser.__init__(self)

    def handle_starttag(self, tag, attrs):
        if attrs:
            attr_dict = {}
            for attr in attrs:
                attr_dict[attr[0]] = attr[1]
            self.result.append({'tag': tag, 'attrs': attr_dict})
        else:
            self.result.append({'tag': tag, 'attrs': {}})

parser = MyHTMLParser()
parser.feed('<html lang="en"><head><meta charset="UTF-8"></head><body><p>Hello, world!</p></body></html>')
print(parser.result)

運行上面的代碼可以輸出HTML文檔中的標籤和屬性以及其對應的值。

九、Python解析HTML頁面

Python可以使用requests庫或urllib庫來獲取指定URL的HTML頁面，並使用相應的HTML解析器解析所獲取的HTML文檔。


import requests
from bs4 import BeautifulSoup

URL = 'https://www.baidu.com'
page = requests.get(URL)
soup = BeautifulSoup(page.content, 'html.parser')

print(soup.prettify())

運行上面的代碼可以獲取指定URL頁面的HTML文檔，使用prettify方法可以將文檔格式化輸出。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/190914.html