利用Python urlopen實現網頁爬取

越來越多的人們開始了解和使用網絡爬蟲。Python 作為一門優秀的編程語言，其對於網絡爬蟲的支持也格外強大。在Python中，可以使用很多工具和庫來實現網絡爬蟲，其中之一就是Python標準庫中的urllib。

一、urllib 庫的簡介

urllib 是 Python 標準庫中的一個內置模塊，包含了一系列用於處理HTTP請求的方法，可以用來處理如下的HTTP請求：

Open URL（打開URL）

import urllib.request

讀取 URL 內容

response = urllib.request.urlopen('http://www.baidu.com/')

獲取 URL 的屬性

print(response.geturl())

讀取服務器返回的數據

print(response.read())

解析 URL

print(urllib.request.urlparse('http://www.baidu.com/'))

urllib 的提供了許多方法和工具，非常適合處理網絡請求和網頁爬取。下面，我們將詳細介紹如何使用Python中的urllib庫來實現網頁爬取。

二、利用urllib實現網頁爬取

（一）打開網頁

首先，我們需要使用urllib庫中的urlopen函數來打開指定的網頁：

import urllib.request

response = urllib.request.urlopen('http://www.baidu.com/')
html = response.read().decode('utf-8')

用這種方式打開網頁後，我們可以得到網頁的HTML源代碼，也就是網頁的全部內容。但是，需要注意的是，urlopen打開的網頁源代碼沒有指定編碼方法，因此我們需要手動將其解碼為utf-8編碼，如上述代碼所示。

（二）解析HTML文檔

在得到網頁源代碼之後，我們需要對其進行解析，以便可以對其進行信息提取。Python中有很多第三方解析HTML文檔的庫，比較常用的有：BeautifulSoup 和 lxml。我們這裡主要介紹使用BeautifulSoup庫：

import urllib.request
from bs4 import BeautifulSoup

response = urllib.request.urlopen('http://www.baidu.com/')
html = response.read().decode('utf-8')

soup = BeautifulSoup(html, 'html.parser')
print(soup.title.string)

上述代碼實現了使用BeautifulSoup庫對網頁文檔進行解析，並獲取了網頁文檔中的標題。BeautifulSoup庫提供了一種非常簡便的方式來解析HTML文檔，只要我們學會它的標籤語法就可以輕鬆完成網頁的提取了。

（三）提取網頁中的數據

解析完 HTML 文檔後，我們就可以使用BeautifulSoup提供的標籤語法，輕鬆地提取網頁中我們想要的信息了。下面是一個簡單的例子，用於提取百度搜索結果頁面中的所有搜索結果：

import urllib.request
from bs4 import BeautifulSoup

response = urllib.request.urlopen('https://www.baidu.com/s?wd=python')
html = response.read().decode('utf-8')

soup = BeautifulSoup(html, 'html.parser')

for item in soup.select('.t'):
    print(item.a.get_text())

上述代碼通過指定解析HTML文檔後要查找的CSS樣式，輕鬆地實現了提取百度搜索結果頁面中所有搜索結果的功能。其中，soup.select()方法用於查找指定的HTML標籤，比如上述代碼中的樣式’.t’就是指搜索結果頁面中展示的標題。

三、小結

urllib 是Python中的一種強大的標準庫，提供了豐富的工具和方法來處理和解析HTTP的請求。通過 urllib庫中的urlopen方法和BeautifulSoup庫，我們可以輕鬆的實現網頁爬取，並從中提取我們所需要的信息。如果想進一步學習Python中的網絡爬蟲開發，建議可以先深入學習 Python 中的 urllib、BeautifulSoup、requests等網絡爬蟲相關的庫。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/300969.html