搭建穩定的代理ip池「ip代理服務器搭建」

一、建立IP代理池的思路：

做爬蟲時，遇到訪問太頻繁IP被封是難以避免的，而本地單個IP是不足以進行大規模爬取，並且自己並不想購買付費代理，那麼，構建一個IP代理池是非常有必要的。思路如下： Python編程：搭建穩定的代理IP池，就不怕被封IP了

圖1

二、建立IP 代理池的步驟：

爬取代理IP：搜索選擇代理IP網站，選取免費代理；代碼如下：

# _*_ coding：UTF-8 _*_
# 開發作者：Jason Zhang
# 創建時間：2020/12/29 17:58
# 文件名稱：爬取代理IP.PY
# 開發工具：PyCharm

import requests
import lxml.html
import os

headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
url_list = ['http://www.xicidaili.com/nn/%r' % i for i in range(1,10)]
ip_list = []
for url in url_list:
    r = requests.get(url,headers=headers)
    etree = lxml.html.fromstring(r.text)
    ips = etree.xpath('//tr[@class="odd"]')
    for ip in ips:
        IP = ip.xpath('//td/text()')
        ip = IP[0] +':'+ IP[1]
        ip_list.append(ip)
f = open('ip.txt','wb')
f.write(','.join(ip_list).encode('utf-8'))
f.close(

驗證代理IP：

通過網絡訪問來驗證代理IP的可用性和訪問速度，將之前爬取到的代理IP地址從ip.txt文件中提取出來，分別試用代理IP去訪問某個網站首頁，僅保留響應時間在2秒內的IP，並保存在QIP.txt中，代碼如下：

# _*_ coding：UTF-8 _*_
# 開發作者：關中老玉米
# 創建時間：2020/12/29 18:27
# 文件名稱：驗證代理IP.PY
# 開發工具：PyCharm

import requests
ip_list = open('ip.txt').read().split(',')
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'
}
q
url = 'https://www.baidu.com' #用百度來測試IP是否能正常連網
for i in ip_list: #設置超時時間timeout為2 s，超時則為不可用IP
    r = requests.get(url, proxies={'http': 'http://' + ip[i]}, headers=headers,timeout=2)
    if r.text:
        qip.append(qip[i])
    else:
        continue
f = open('quality_ip.txt','wb')
f.write(','.join(quality_ip).encode('utf-8'))
f.close()

使用代理IP：

建立IP代理池之後，有以下兩種使用代理IP的方式。

# _*_ coding：UTF-8 _*_
# 開發作者：Jason Zhang
# 創建時間：2020/12/31 18:03
# 文件名稱：使用代理IP.PY
# 開發工具：PyCharm

# （1）使用隨機 IP，代碼如下：
import random
import requests
ip_list = open('quality_ip.txt').read().split(',')
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
url = 'http://*********'
r = requests.get(url, proxies={'http': 'http://'+random.choice(ip_list)},headers=headers)


# （2）因為免費的代理時效很短，在後續的爬取任務中很容易失效，所以當出現訪問錯誤（響應碼不等於 200）時，更換 IP，代碼如下：
ip_list = open('qip.txt').read().split(',')
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
for ip in ip_list:
    for i in range(len(url_list)):
        r = requests.get(url_list[i], proxies={'http': 'http://'+ip},headers=headers)
        if r.status_code != 200:
            break

原創文章，作者：投稿專員，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/234724.html

搭建穩定的代理ip池「ip代理服務器搭建」

相關推薦

發表回復