爬蟲教程：手把手教你爬取豆瓣電影排行榜

隨著互聯網的發展，我們可以非常容易地獲取到豐富的信息資源。例如，我們可以通過爬蟲技術來獲取網頁中的信息，這為許多領域的數據分析及研究提供了便利。

本文將介紹如何通過Python語言編寫爬蟲程序，以抓取豆瓣電影排行榜的數據為例，向讀者展示爬蟲技術的基本原理及操作過程。希望讀者在本文的指導下，能夠學習到爬蟲技術並運用到實際應用中。

一、獲取網頁內容

爬蟲程序首先需要完成的任務就是獲取網頁的內容，這可以通過Python的requests庫來實現。requests是一個Python第三方庫，可以用於發送HTTP請求並獲取伺服器響應。首先需要使用如下命令安裝該庫：

pip install requests

接下來，我們可以使用requests.get()方法來發送HTTP請求，獲取豆瓣電影排行榜的網頁內容。參考代碼如下：

import requests

url = 'https://movie.douban.com/chart'
response = requests.get(url)
print(response.text)

運行上面的代碼後，我們就可以在控制台中看到豆瓣電影排行榜網頁的原始內容。

二、解析網頁內容

獲取到網頁內容後，我們需要從中提取出我們需要的信息。豆瓣電影排行榜網頁中包含了許多電影信息，其中每個電影的名稱、評分、導演、演員等都是我們需要的信息。

我們可以使用Python的第三方庫BeautifulSoup4來解析網頁內容。BeautifulSoup4是一個用於解析HTML和XML文檔的Python庫，它可以自動解析並返回這些文檔中提取出的數據。首先需要使用如下命令安裝該庫：

pip install beautifulsoup4

接下來，我們可以通過分析豆瓣電影排行榜網頁的HTML結構，將網頁中每個電影信息的HTML標籤進行提取。參考代碼如下：

from bs4 import BeautifulSoup
import requests

url = 'https://movie.douban.com/chart'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find_all('div', class_='pl2')

for movie in movies:
    print(movie.a.text)

運行上面的代碼後，我們就可以在控制台中看到豆瓣電影排行榜的電影名稱信息。

三、存儲數據

最後，我們可以將提取出的電影信息存儲到本地文件中，便於我們後續進行數據分析。使用Python的內置模塊csv來存儲數據，示例代碼如下：

from bs4 import BeautifulSoup
import requests
import csv

url = 'https://movie.douban.com/chart'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find_all('div', class_='pl2')

with open('movies.csv', 'w', encoding='utf8', newline='') as f:
    writer = csv.writer(f)
    for movie in movies:
        name = movie.a.text.strip()
        rating = movie.parent.find('span', class_='rating_nums').text.strip()
        info = movie.find('p', class_='').text.strip().split('\n')[0]
        director = info.split('導演: ')[-1].split('主演:')[0].strip()
        actors = info.split('主演: ')[-1].strip()
        writer.writerow([name, rating, director, actors])

運行上面的代碼後，我們就可以在當前目錄下看到生成的movies.csv文件，其中存儲了電影的名稱、評分、導演和演員等信息。

經過上述步驟，我們就完成了一個簡單的爬蟲程序。通過自學Python編程，我們可以更多地使用爬蟲技術，實現更多有趣的應用。

原創文章，作者：SFMF，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/149031.html

爬蟲教程：手把手教你爬取豆瓣電影排行榜

一、獲取網頁內容

二、解析網頁內容

三、存儲數據

相關推薦

發表回復