使用requests庫下載

介紹

隨著互聯網的迅猛發展，人們已經越來越依賴網路，特別是對於程序員來說，網路上的資源已經成為我們工作中必不可少的一部分。requests庫就是我們在Python中訪問Internet時的理想選擇，它為我們提供了一個簡單而優雅的API，使我們能夠輕鬆地發送HTTP/1.1請求。本文將介紹如何使用requests庫下載網路資源。

正文

一、安裝requests庫

使用requests庫之前，需要先安裝它。可以使用pip來安裝，打開終端並輸入如下命令：

pip install requests

如果一切順利，將會看到requests庫被成功安裝。

二、下載文件

使用requests庫下載文件非常簡單。只需使用requests.get()方法，並傳遞要下載的文件的URL地址:

import requests

url = 'http://www.example.com/file.jpg'
r = requests.get(url)

with open('file.jpg', 'wb') as f:
    f.write(r.content)

以上代碼將下載指定的URL地址的圖片文件，並保存到本地磁碟。

三、下載HTML頁面

requests庫不僅可以用來下載文件，還可以用來下載網站頁面。以下代碼演示如何使用requests庫下載HTML頁面，並將其存儲為本地文件:

import requests

url = 'http://www.example.com/index.html'
r = requests.get(url)

with open('index.html', 'w') as f:
    f.write(r.text)

以上代碼將獲取指定URL的HTML頁面，並將其保存到本地磁碟。

四、設置請求頭

有些網站會進行反爬蟲設置，拒絕通過一些開源User-Agent的請求。如果我們的請求遇到被拒絕的情況，需要偽造請求頭，模擬正常的瀏覽器請求。以下是設置請求頭的示例代碼:

import requests

url = 'http://www.example.com'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
r = requests.get(url, headers=headers)

print(r.text)

以上代碼中，設置了User-Agent請求頭，將其值設置為Chrome瀏覽器的User-Agent，然後發送請求獲取指定URL的HTML頁面。

五、設置代理IP

如果需要下載的文件或頁面被封鎖，或者訪問網站需要經過認證，那麼我們可以使用代理IP。使用requests庫設置代理非常簡單，只需在請求中添加proxies參數即可。以下是設置代理IP的示例代碼:

import requests

url = 'http://www.example.com'
proxies = {'http': 'http://127.0.0.1:8080', 'https': 'https://127.0.0.1:8080'}
r = requests.get(url, proxies=proxies)

print(r.text)

以上代碼中，將HTTP代理設置為 “http://127.0.0.1:8080″，將HTTPS代理設置為 “https://127.0.0.1:8080″。

總結

requests庫是Python中一個非常方便的第三方庫，能夠幫助我們輕鬆地訪問互聯網，下載網路資源。本文介紹了如何使用requests庫下載文件、下載HTML頁面、設置請求頭、設置代理IP等操作。相信在實際使用中，這些知識點將會為你帶來很大的幫助！

原創文章，作者：GQZR，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/140361.html