爬蟲概述
前戲
你是否在夜深人靜的時候,想看一些會讓你更睡不着的圖片…

你是否在考試或者面試前夕,想看一些具有針對性的題目和面試題…

你是否想在雜亂的網絡世界獲取你想要的數據…

爬蟲的價值
實際應用

就業
什麼是爬蟲

通過編寫程序,模擬瀏覽器上網,然後讓其去互聯網上抓取數據的過程
關鍵詞抽取:
模擬:瀏覽器就是一個純天然最原始的一個爬蟲工具
抓取:
抓取一整張頁面源碼數據
抓取一整張頁面中的局部數據
爬蟲的分類
通用爬蟲:
要求我們爬取一整張的頁面源碼數據
聚焦爬蟲:
要求爬取一張頁面中的局部的數據
聚焦爬蟲一定是建立在通用爬蟲基礎之上
增量式爬蟲:
用來檢測網站數據更新的情況,以便爬取到網站最新更新出來的數據。
分布式爬蟲:
提高爬蟲效率的終極武器。
反爬、反反爬
反爬機制:
是作用到門戶網站中。如果網站不想讓爬蟲輕易爬取到數據,它可以制定相關的機制或者措施阻止爬蟲程序爬取數據。
反反爬策略:
是作用在爬蟲程序中。我們爬蟲可以制定相關的策略破擊反爬機制從而爬取到相關的數據。
第一種反爬機制:
robots協議:防君子不防小人
是一個純文本的協議,協議中規定了該網站中哪些數據可以被哪些爬蟲爬起,哪些不可以被爬取。
破解:
你自己主觀性的不遵從該協議即可。
robots協議詳細介紹:

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/222258.html
微信掃一掃
支付寶掃一掃