介紹
隨著互聯網的迅猛發展,人們已經越來越依賴網路,特別是對於程序員來說,網路上的資源已經成為我們工作中必不可少的一部分。requests庫就是我們在Python中訪問Internet時的理想選擇,它為我們提供了一個簡單而優雅的API,使我們能夠輕鬆地發送HTTP/1.1請求。本文將介紹如何使用requests庫下載網路資源。
正文
一、安裝requests庫
使用requests庫之前,需要先安裝它。可以使用pip來安裝,打開終端並輸入如下命令:
pip install requests
如果一切順利,將會看到requests庫被成功安裝。
二、下載文件
使用requests庫下載文件非常簡單。只需使用requests.get()方法,並傳遞要下載的文件的URL地址:
import requests
url = 'http://www.example.com/file.jpg'
r = requests.get(url)
with open('file.jpg', 'wb') as f:
f.write(r.content)
以上代碼將下載指定的URL地址的圖片文件,並保存到本地磁碟。
三、下載HTML頁面
requests庫不僅可以用來下載文件,還可以用來下載網站頁面。以下代碼演示如何使用requests庫下載HTML頁面,並將其存儲為本地文件:
import requests
url = 'http://www.example.com/index.html'
r = requests.get(url)
with open('index.html', 'w') as f:
f.write(r.text)
以上代碼將獲取指定URL的HTML頁面,並將其保存到本地磁碟。
四、設置請求頭
有些網站會進行反爬蟲設置,拒絕通過一些開源User-Agent的請求。如果我們的請求遇到被拒絕的情況,需要偽造請求頭,模擬正常的瀏覽器請求。以下是設置請求頭的示例代碼:
import requests
url = 'http://www.example.com'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
r = requests.get(url, headers=headers)
print(r.text)
以上代碼中,設置了User-Agent請求頭,將其值設置為Chrome瀏覽器的User-Agent,然後發送請求獲取指定URL的HTML頁面。
五、設置代理IP
如果需要下載的文件或頁面被封鎖,或者訪問網站需要經過認證,那麼我們可以使用代理IP。使用requests庫設置代理非常簡單,只需在請求中添加proxies參數即可。以下是設置代理IP的示例代碼:
import requests
url = 'http://www.example.com'
proxies = {'http': 'http://127.0.0.1:8080', 'https': 'https://127.0.0.1:8080'}
r = requests.get(url, proxies=proxies)
print(r.text)
以上代碼中,將HTTP代理設置為 “http://127.0.0.1:8080″,將HTTPS代理設置為 “https://127.0.0.1:8080″。
總結
requests庫是Python中一個非常方便的第三方庫,能夠幫助我們輕鬆地訪問互聯網,下載網路資源。本文介紹了如何使用requests庫下載文件、下載HTML頁面、設置請求頭、設置代理IP等操作。相信在實際使用中,這些知識點將會為你帶來很大的幫助!
原創文章,作者:GQZR,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/140361.html