Python爬取網頁數據入門

一、爬蟲簡介

隨著互聯網的發展，數據已經成為我們日常工作和生活中不可或缺的一部分。如何高效地獲取這些數據，成為了技術人員必須面對的難題。而爬蟲就是解決這個問題的重要工具之一。

爬蟲，即網路蜘蛛，是模擬瀏覽器自動化訪問網頁，抓取網頁數據的程序。通過爬蟲技術，我們可以大規模地獲取互聯網中的數據，並進行分析和應用。

二、Python爬蟲庫介紹

Python作為一門優秀的編程語言，在爬蟲領域也有著獨特的優勢。Python生態圈中有許多爬蟲庫可以供我們使用。下面介紹其中三個常用的爬蟲庫：

1. requests

import requests

response = requests.get('https://www.baidu.com')
print(response.text)

requests是Python中的一個HTTP庫，我們可以用它來發送HTTP/1.1請求。它能夠非常方便地實現HTTP請求，並且支持HTTP連接保持和連接池，自動管理Cookie，支持文件上傳等HTTP相關的功能。

2. BeautifulSoup

from bs4 import BeautifulSoup
import requests

response = requests.get('https://www.baidu.com')
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.title.string)

BeautifulSoup是Python中常用的一個HTML和XML解析庫。它可以將HTML格式的文本解析成樹形結構，便於對其中的元素進行提取和處理。

3. Scrapy

Scrapy是Python中的一個爬蟲框架，它提供了一系列高效且易於擴展的爬蟲工具，能夠幫助我們快速地構建爬蟲並進行數據處理。

import scrapy

class mySpider(scrapy.Spider):
    name = 'spider'
    start_urls = ['https://www.baidu.com']

    def parse(self, response):
        print(response.text)

三、爬蟲實戰

下面以爬取豆瓣電影中最受歡迎的電影為例，介紹如何使用Python爬蟲來獲取網頁數據。

1. 制定請求

首先需要確定要爬取哪個頁面，並構造相應的請求。這裡我們以豆瓣電影Top250為例：

import requests

url = 'https://movie.douban.com/top250'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299'}
response = requests.get(url, headers=headers)
print(response.text)

其中，headers是偽裝成瀏覽器的請求頭信息，避免被網站防爬蟲機制攔截。

2. 解析網頁

在獲取到網頁數據之後，我們需要對該網頁進行解析，並提取出我們所需要的信息。這裡使用BeautifulSoup來進行解析。

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')
movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})
movie_name_list = []

for movie_li in movie_list_soup.find_all('li'):
    detail = movie_li.find('div', attrs={'class': 'hd'})
    movie_name = detail.find('span', attrs={'class': 'title'}).getText()
    movie_name_list.append(movie_name)

print(movie_name_list)

這段代碼可以提取出豆瓣電影Top250中每部電影的名字，並將其存儲在一個列表中。

3. 存儲數據

最後，我們需要將獲取到的數據進行存儲。這裡使用csv文件來存儲電影名字信息。

import csv

with open('douban_movie_top250.csv', 'w', newline='', encoding='utf-8-sig') as f:
    writer = csv.writer(f)
    writer.writerow(['電影名稱'])
    for name in movie_name_list:
        writer.writerow([name])

運行之後，我們就可以在本地看到名為douban_movie_top250.csv文件，並在其中查看電影名字信息了。

總結

通過上述的介紹，相信大家對Python爬蟲的工作原理以及常用庫有了一定的了解。Python爬蟲是非常實用的工具，在數據分析、市場調研以及競爭情報收集等方面有著廣泛的應用。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/283719.html