使用Python爬虫获取table

HGONR 2024-10-03 23:01 数码 4

本文将介绍如何使用Python爬虫技术获取网页中的table，并对其进行处理和分析。

要获取网页中的table，首先需要用Python获取网页的源代码。这里我们推荐使用requests库。

import requests
url = "https://example.com"
r = requests.get(url)
html = r.text

通过调用requests库，我们先获取了一个网页的内容，并将其存储在html变量中。

将网页内容解析成BeautifulSoup对象，方便我们对其中的table进行提取和处理。所以需要安装并使用BeautifulSoup库。

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

使用BeautifulSoup，我们将html解析成soup，这样我们就能够轻松有效地访问和提取其中的元素和属性。

提取网页中的table，需要先找到table的标签。通常情况下，table的标签是<table>，但是有时候也可能是<tbody>、<tr>或<td>等标签嵌套所组成的表格结构。

table = soup.find('table')
tbody = table.find('tbody')
rows = tbody.find_all('tr')

使用find方法可以找到第一个匹配的标签，使用find_all方法可以找到所有匹配的标签。上面的代码就是先找到table标签，再找到其中的tbody标签，最后找到tbody中的所有tr标签，即table中的所有行。

处理table一般包括以下几个方面：

header = []
for th in rows[0].find_all('th'):
    header.append(th.text.strip())
print(header)

在table中，第一行通常是表头，包含了列名信息。通过遍历第一行中的所有th标签，并将th标签中的文字内容添加到header列表中，我们就可以获得表格的列名。

data = []
for row in rows[1:]:
    row_data = []
    for td in row.find_all('td'):
        row_data.append(td.text.strip())
    data.append(row_data)
print(data)

在table中，除了表头，其余行是表格数据，也就是我们要处理的内容。通过遍历除第一行以外的所有行，并将每行中所有td标签的内容添加到row_data列表中，我们就可以获得表格的数据。

有时候我们需要对获得的表格数据进行清洗处理，比如格式化数据、去除特殊字符等。

for row in data:
    row[2] = row[2].replace('$', '').replace(',', '')
    row[3] = float(row[3])

上面的代码中，我们通过replace方法去除了数据中的美元符号和逗号，并使用float将数据从字符串类型转换为浮点数类型。

最后，我们可以将处理后的表格数据存储到文件或数据库中。

import csv
with open('table_data.csv', 'w', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(header)
    writer.writerows(data)

上面的代码中，我们使用csv库将处理后的表格数据存储到csv文件中。

通过以上几个步骤，我们就可以使用Python爬虫技术获取网页中的table，并进行处理和存储。

共1条回复我来回复

暂无回复内容