本文目錄一覽:
- 1、如何使用python解決網站的反爬蟲
- 2、python爬蟲有什麼辦法防止反爬蟲
- 3、python爬蟲項目實戰:爬取用戶的所有信息,如性別、年齡等
- 4、怎麼修好並運行下面這個python爬蟲,好像header裡面參數過期了?
- 5、如何用python 爬蟲抓取金融數據
- 6、python爬蟲中怎麼寫反爬蟲
如何使用python解決網站的反爬蟲
1、從用戶請求的Headers反爬蟲是最常見的反爬蟲策略。
偽裝header。很多網站都會對Headers的User-Agent進行檢測,還有一部分網站會對Referer進行檢測(一些資源網站的防盜鏈就是檢測Referer)。如果遇到了這類反爬蟲機制,可以直接在爬蟲中添加Headers,將瀏覽器的User-Agent複製到爬蟲的Headers中;或者將Referer值修改為目標網站域名[評論:往往容易被忽略,通過對請求的抓包分析,確定referer,在程序中模擬訪問請求頭中添加]。對於檢測Headers的反爬蟲,在爬蟲中修改或者添加Headers就能很好的繞過。
2、基於用戶行為反爬蟲
還有一部分網站是通過檢測用戶行為,例如同一IP短時間內多次訪問同一頁面,或者同一賬戶短時間內多次進行相同操作。[這種防爬,需要有足夠多的ip來應對]
(1)、大多數網站都是前一種情況,對於這種情況,使用IP代理就可以解決。可以專門寫一個爬蟲,爬取網上公開的代理ip,檢測後全部保存起來。有了大量代理ip後可以每請求幾次更換一個ip,這在requests或者urllib中很容易做到,這樣就能很容易的繞過第一種反爬蟲。
編寫爬蟲代理:
步驟:
1.參數是一個字典{‘類型’:’代理ip:端口號’}
proxy_support=urllib.request.ProxyHandler({})
2.定製、創建一個opener
opener=urllib.request.build_opener(proxy_support)
3a.安裝opener
urllib.request.install_opener(opener)
3b.調用opener
opener.open(url)
用大量代理隨機請求目標網站,應對反爬蟲
python爬蟲有什麼辦法防止反爬蟲
動態頁面的限制,爬蟲工作者可能會遇到這樣的尷尬,當你抓取下目標頁面之後,你發現,關鍵信息處一片空白,只有密密麻麻一片的框架代碼,這是因為該網站的信息是通過用戶Post的XHR動態返回內容信息,解決這種問題就是要通過開發者工具(FireBug等)對網站流進行分析,對內容信息進行抓取,獲取所需要的內容。
用戶行為檢測,有一些是網站通過檢測和分析一些用戶的行為,比如說是針對cookies,通過檢查cookies來判斷用戶是不是可以利用和保存的有效客戶,通常是需要登陸的網站,經常會採用這樣的技術。層次再深的還有,信息驗證,部分網站的登陸是需要驗證嗎的驗證的,就像登陸的時候,系統會自動分配出驗證碼,authenticity_token,authenticity_token會和用戶提交的登錄名和密碼一起發送回服務器。
IP的訪問頻率被限制,一些平台為了防止多次訪問網站,會在某個同一個IP在單元時間內超過一定的次數的時候,將禁止這個IP繼續訪問。對於這個限制IP訪問效率,可以使用代理IP的方法來解決問題比如使用IPIDEA。
以上簡單的說了三種常見的反爬蟲已經反爬蟲的應對方法,一般來講越高級的爬蟲被封鎖的機率救會越低,但是性能會比較低一些。
python爬蟲項目實戰:爬取用戶的所有信息,如性別、年齡等
python爬蟲項目實戰:
爬取糗事百科用戶的所有信息,包括用戶名、性別、年齡、內容等等。
10個步驟實現項目功能,下面開始實例講解:
1.導入模塊
import re
import urllib.request
from bs4 import BeautifulSoup
2.添加頭文件,防止爬取過程被拒絕鏈接
def qiuShi(url,page):
################### 模擬成高仿度瀏覽器的行為 ##############
heads ={
‘Connection’:’keep-alive’,
‘Accept-Language’:’zh-CN,zh;q=0.9′,
‘Accept’:’text/html,application/xhtml+xml,application/xml;
q=0.9,image/webp,image/apng, / ;q=0.8′,
‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36′,
}
headall = []
for key,value in heads.items():
items = (key,value)
headall.append(items)
opener = urllib.request.build_opener()
opener.addheaders = headall
urllib.request.install_opener(opener)
data = opener.open(url).read().decode()
################## end ########################################
3.創建soup解析器對象
soup = BeautifulSoup(data,’lxml’)
x = 0
4.開始使用BeautifulSoup4解析器提取用戶名信息
############### 獲取用戶名 ########################
name = []
unames = soup.find_all(‘h2’)
for uname in unames:
name.append(uname.get_text())
#################end#############################
5.提取發表的內容信息
############## 發表的內容 #########################
cont = []
data4 = soup.find_all(‘div’,class_=’content’)
data4 = str(data4)
soup3 = BeautifulSoup(data4,’lxml’)
contents = soup3.find_all(‘span’)
for content in contents:
cont.append(content.get_text())
##############end####################################
6.提取搞笑指數
#################搞笑指數##########################
happy = []
data2 = soup.find_all(‘span’,class_=”stats-vote”)
data2 = str(data2) # 將列錶轉換成字符串形式才可以使用
soup1 = BeautifulSoup(data2,’lxml’)
happynumbers = soup1.find_all(‘i’,class_=”number”)
for happynumber in happynumbers:
happy.append(happynumber.get_text())
##################end#############################
7.提取評論數
############## 評論數 ############################
comm = []
data3 = soup.find_all(‘a’,class_=’qiushi_comments’)
data3 = str(data3)
soup2 = BeautifulSoup(data3,’lxml’)
comments = soup2.find_all(‘i’,class_=”number”)
for comment in comments:
comm.append(comment.get_text())
############end#####################################
8.使用正則表達式提取性別和年齡
######## 獲取性別和年齡 ##########################
pattern1 = ‘div class=”articleGender (w ?)Icon”(d ?)/div’
sexages = re.compile(pattern1).findall(data)
9.設置用戶所有信息輸出的格局設置
################## 批量輸出用戶的所以個人信息 #################
print()
for sexage in sexages:
sa = sexage
print(‘ ‘ 17, ‘= = 第’, page, ‘頁-第’, str(x+1) + ‘個用戶 = = ‘,’ ‘ 17)
print(‘【用戶名】:’,name[x],end=”)
print(‘【性別】:’,sa[0],’ 【年齡】:’,sa[1])
print(‘【內容】:’,cont[x])
print(‘【搞笑指數】:’,happy[x],’ 【評論數】:’,comm[x])
print(‘ ‘ 25,’ 三八分割線 ‘,’ ‘ 25)
x += 1
###################end##########################
10.設置循環遍歷爬取13頁的用戶信息
for i in range(1,14):
url = ‘ ‘+str(i)+’/’
qiuShi(url,i)
運行結果,部分截圖:
怎麼修好並運行下面這個python爬蟲,好像header裡面參數過期了?
如果是通過 cookie 饒過登錄認證(是個好方法,因為很多情況下涉及參數加密),但是這種方式不好的地方就是 cookie 會過期,所以過期了以後需要手動更新裡面的 cookie。比直接模擬登錄稍微麻煩一點,短期使用以這種方式優先。模擬登錄難度高些,當然效果好。
如何用python 爬蟲抓取金融數據
獲取數據是數據分析中必不可少的一部分,而網絡爬蟲是是獲取數據的一個重要渠道之一。鑒於此,我拾起了Python這把利器,開啟了網絡爬蟲之路。
本篇使用的版本為python3.5,意在抓取證券之星上當天所有A股數據。程序主要分為三個部分:網頁源碼的獲取、所需內容的提取、所得結果的整理。
一、網頁源碼的獲取
很多人喜歡用python爬蟲的原因之一就是它容易上手。只需以下幾行代碼既可抓取大部分網頁的源碼。
import urllib.request
url=’ar.com/stock/ranklist_a_3_1_1.html’ #目標網址headers={“User-Agent”:”Mozilla/5.0 (Windows NT 10.0; WOW64)”} #偽裝瀏覽器請求報頭request=urllib.request.Request(url=url,headers=headers) #請求服務器response=urllib.request.urlopen(request) #服務器應答content=response.read().decode(‘gbk’) #以一定的編碼方式查看源碼print(content) #打印頁面源碼
雖說抓一頁的源碼容易,不過在一個網站內大量抓取網頁源碼卻經常遭到服務器攔截,頓時感覺世界充滿了惡意。於是我開始研習突破反爬蟲限制的功法。
1.偽裝流浪器報頭
很多服務器通過瀏覽器發給它的報頭來確認是否是人類用戶,所以我們可以通過模仿瀏覽器的行為構造請求報頭給服務器發送請求。服務器會識別其中的一些參數來識別你是否是人類用戶,很多網站都會識別User-Agent這個參數,所以請求頭最好帶上。有一些警覺性比較高的網站可能還會通過其他參數識別,比如通過Accept-Language來辨別你是否是人類用戶,一些有防盜鏈功能的網站還得帶上referer這個參數等等。
2.隨機生成UA
證券之星只需帶User-Agent這個參數就可以抓取頁面信息了,不過連續抓取幾頁就被服務器阻止了。於是我決定每次抓取數據時模擬不同的瀏覽器發送請求,而服務器通過User-Agent來識別不同瀏覽器,所以每次爬取頁面可以通過隨機生成不同的UA構造報頭去請求服務器,
3.減慢爬取速度
雖然模擬了不同瀏覽器爬取數據,但發現有的時間段可以爬取上百頁的數據,有時候卻只能爬取十來頁,看來服務器還會根據你的訪問的頻率來識別你是人類用戶還是網絡爬蟲。所以我每抓取一頁都讓它隨機休息幾秒,加入此句代碼後,每個時間段都能爬取大量股票數據了。
4.使用代理IP
天有不測風雲,程序在公司時順利測試成功,回寢室後發現又只能抓取幾頁就被服務器阻止了。驚慌失措的我趕緊詢問度娘,獲知服務器可以識別你的IP,並記錄此IP訪問的次數,可以使用高匿的代理IP,並在抓取的過程中不斷的更換,讓服務器無法找出誰是真兇。此功還未修成,欲知後事如何,請聽下回分解。
5.其他突破反爬蟲限制的方法
很多服務器在接受瀏覽器請求時會發送一個cookie文件給瀏覽器,然後通過cookie來跟蹤你的訪問過程,為了不讓服務器識別出你是爬蟲,建議最好帶上cookie一起去爬取數據;如果遇上要模擬登陸的網站,為了不讓自己的賬號被拉黑,可以申請大量的賬號,然後再爬入,此處涉及模擬登陸、驗證碼識別等知識,暫時不再深究…總之,對於網站主人來說,有些爬蟲確實是令人討厭的,所以會想出很多方法限制爬蟲的進入,所以我們在強行進入之後也得注意些禮儀,別把人家的網站給拖垮了。
二、所需內容的提取
獲取網頁源碼後,我們就可以從中提取我們所需要的數據了。從源碼中獲取所需信息的方法有很多,使用正則表達式就是比較經典的方法之一。我們先來看所採集網頁源碼的部分內容。
為了減少干擾,我先用正則表達式從整個頁面源碼中匹配出以上的主體部分,然後從主體部分中匹配出每隻股票的信息。代碼如下。
pattern=re.compile(‘tbody[\s\S]*/tbody’)
body=re.findall(pattern,str(content)) #匹配tbody和/tbody之間的所有代碼pattern=re.compile(‘(.*?)’)
stock_page=re.findall(pattern,body[0]) #匹配和之間的所有信息
其中compile方法為編譯匹配模式,findall方法用此匹配模式去匹配出所需信息,並以列表的方式返回。正則表達式的語法還挺多的,下面我只羅列所用到符號的含義。
語法 說明
. 匹配任意除換行符“\n”外的字符
* 匹配前一個字符0次或無限次
? 匹配前一個字符0次或一次
\s 空白字符:[空格\t\r\n\f\v]
\S 非空白字符:[^\s]
[…] 字符集,對應的位置可以是字符集中任意字符
(…) 被括起來的表達式將作為分組,裡面一般為我們所需提取的內容
正則表達式的語法挺多的,也許有大牛隻要一句正則表達式就可提取我想提取的內容。在提取股票主體部分代碼時發現有人用xpath表達式提取顯得更簡潔一些,看來頁面解析也有很長的一段路要走。
三、所得結果的整理
通過非貪婪模式(.*?)匹配和之間的所有數據,會匹配出一些空白字符出來,所以我們採用如下代碼把空白字符移除。
stock_last=stock_total[:] #stock_total:匹配出的股票數據for data in stock_total: #stock_last:整理後的股票數據
if data==”:
stock_last.remove(”)
最後,我們可以打印幾列數據看下效果,代碼如下
print(‘代碼’,’\t’,’簡稱’,’ ‘,’\t’,’最新價’,’\t’,’漲跌幅’,’\t’,’漲跌額’,’\t’,’5分鐘漲幅’)for i in range(0,len(stock_last),13): #網頁總共有13列數據
print(stock_last[i],’\t’,stock_last[i+1],’ ‘,’\t’,stock_last[i+2],’ ‘,’\t’,stock_last[i+3],’ ‘,’\t’,stock_last[i+4],’ ‘,’\t’,stock_last[i+5])
python爬蟲中怎麼寫反爬蟲
1、通過UA判斷:UA是UserAgent,是要求瀏覽器的身份標誌。
UA是UserAgent,是要求瀏覽器的身份標誌。反爬蟲機制通過判斷訪問要求的頭部沒有UA來識別爬蟲,這種判斷方法水平很低,通常不作為唯一的判斷標準。反爬蟲非常簡單,可以隨機數UA。
2、通過Cookie判定:Cookie是指會員帳戶密碼登錄驗證
Cookie是指會員帳戶密碼登錄驗證,通過區分該帳戶在短時間內爬行的頻率來判斷。這種方法的反爬蟲也很困難,需要多賬戶爬行。
3、通過訪問頻率判定
爬蟲類經常在短時間內多次訪問目標網站,反爬蟲類機制可以通過單個IP訪問的頻率來判斷是否是爬蟲類。這樣的反爬方式難以反制,只能通過更換IP來解決。
4、通過驗證碼判定
驗證碼是反爬蟲性價比高的實施方案。反爬蟲通常需要訪問OCR驗證碼識別平台,或者使用TesseractOCR識別,或者使用神經網絡訓練識別驗證碼。
5、動態性頁面加載
使用動態加載的網站通常是為了方便用戶點擊和查看,爬蟲無法與頁面互動,這大大增加了爬蟲的難度。
一般情況下,用戶對網站進行信息爬取時,都要受到“爬蟲”的約束,使用戶在獲取信息時受到一定的阻礙
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/303421.html