為什麼要加請求頭（HTTP Header）？

在進行網頁抓取（Web Scraping）時，請求頭（HTTP Header）扮演着非常重要的角色。請求頭中包含了用戶代理（User Agent）、cookie、referer等信息。這些信息不但可以用於發送請求，也可以影響到服務器的應答結果。在本文中，我們將從多個角度去探討HTTP協議、擁有HTTP請求頭的重要性，並給出Python語言的實例代碼。

一、HTTP協議

HTTP（超文本傳輸協議）是一個應用層協議，用於在Web瀏覽器和Web服務器之間傳遞數據。HTTP的主要特點是無狀態，即Http請求與Http響應是相互獨立的，每一個請求都要完整的附上相關的內容，服務器處理完客戶端發送的請求之後，不會保留任何狀態信息。這使得HTTP協議不適用於需要在多個請求之間維護信息的Web應用程序，如各種銀行系統、購物系統等。

二、爬蟲如何「模擬」請求

在進行網頁抓取時，我們需要將Web服務端的內容爬取下來，類似於我們在瀏覽器中輸入網頁地址，按下回車鍵，就可以得到網頁的源碼。那麼，如何模擬自己在瀏覽器中輸入網頁地址，以便得到Web服務端的內容呢？我們需要了解一下HTTP請求的模擬方法。

我們通常採用Python的requests模塊發送HTTP請求。以下是Python語言示例代碼：

import requests

url = 'http://www.example.com'
response = requests.get(url)
print(response.text)

在上述代碼中，我們首先導入了Python的requests模塊，並提供了要抓取的網頁URL。最後的print語句用於打印請求到的內容。這個例子中，請求操作的目標是url所對應的「www.example.com」這個網站的HTML頁面，並將該HTML頁面返回到本地化處理。相當於我們在瀏覽器中輸入了網頁地址，按下回車鍵，就可以得到HTML源碼。

一般來說，簡單的HTTP請求並不需要太多的參數，上述代碼可以滿足大多數的需求。但隨着爬蟲技術的不斷演進，新的爬蟲技術的滋生，爬蟲工程師會越來越頻繁地模仿請求，甚至按照自己的需求構造請求報文。稍不留神，就有可能不小心觸發服務端的安全防範措施，甚至被封禁IP，這時候「模擬請求」的重要性就凸顯出來了。

三、模擬請求的關鍵請求頭信息

在模擬請求時，我們通常需要構造HTTP報文，同時在HTTP報文的頭信息中加入必要的請求頭信息，來模擬真實用戶的請求效果。下面，我們就來介紹一下HTTP頭信息中最為常用的幾個字段。

1. User-Agent

在模擬請求時，使用User-Agent可以用於設置當前請求的瀏覽器類型，以及操作系統信息，目的是讓對方服務器認為你是一個普通用戶，最終讓你直接獲取最終頁面的內容。在上方Python代碼示例中，我們並沒有加入請求頭信息，此時requests默認的User-Agent可能會被服務器認為是爬蟲，無法返回HTML內容。為了避免這種情況，我們可以自定義User-Agent。示例代碼如下：

import requests

my_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
url = 'http://www.example.com'
response = requests.get(url, headers=my_headers)
print(response.text)

2. Referer

Referer是HTTP頭信息中一個相對比較少見但是常用的字段。它通常用於標識本次請求的上一個頁面的地址，可以用於模擬用戶的真實請求方式。代碼示例如下:

import requests

my_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
    'Referer': 'http://www.example.com'
}
url = 'http://www.example.com'
response = requests.get(url, headers=my_headers)
print(response.text)

3. cookie

Cookie是Web服務器存儲在客戶端的一段文本信息，例如我們登錄之後，服務器會為我們設置一個唯一的Cookie並且下發到客戶端，接下來，我們再訪問其他的頁面，如購物車、賬號信息等就使用這個Cookie來驗證你的登錄信息，完成登錄狀態保持。示例代碼如下：

import requests

my_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
    'Cookie': 'id=123;type=user'
}
url = 'http://www.example.com'
response = requests.get(url, headers=my_headers)
print(response.text)

通過上述的示例代碼，我們將了解到請求頭信息中一些關鍵的參數，例如User-Agent、Referer以及Cookie等。這些參數可以幫助我們模擬真實用戶請求的方式，同時避免服務器對我們的攔截，這對於進行網絡爬蟲來說非常重要。

四、HTTP請求頭參數獲取和重複設置

在進行網絡爬蟲時，我們不可能手動複製粘貼上述頭信息，每次都進行設置，這樣會極大降低爬取效率。因此，我們通常會事先構造好常用請求頭信息，每次進行網絡爬蟲時，直接調用該請求頭數據進行網絡請求，避免重複操作。Python示例代碼如下：

import requests

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
    'Referer': 'http://www.example.com',
    'Cookie': 'id=123; type=user'
}

def request():
    url = 'http://www.example.com'
    return requests.get(url, headers=headers)

response = request()
print(response.text)

如上述示例代碼所示，我們構造了常用HTTP頭信息，並在函數內使用requests庫直接調用即可完成網絡爬取操作。可以看到，通過這種方式可以避免反覆添加HTTP頭信息，加快請求速度和爬蟲效率。

五、總結

在進行網絡爬蟲時，HTTP請求頭信息的作用尤為重要。通過請求頭信息，我們可以幫助模擬真實用戶請求行為，防止被反爬。在本文中，我們從HTTP協議、模擬請求方法和請求頭信息作用三個方面進行了說明，並提供了Python示例代碼，以便讀者理解HTTP請求頭信息的重要性和使用方法。

原創文章，作者：YELSR，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/374201.html