本文目錄一覽:
如何入門 Python 爬蟲
現在之所以有這麼多的小夥伴熱衷於爬蟲技術,無外乎是因為爬蟲可以幫我們做很多事情,比如搜索引擎、採集數據、廣告過濾等,以Python為例,Python爬蟲可以用於數據分析,在數據抓取方面發揮巨大的作用。
但是這並不意味着單純掌握一門Python語言,就對爬蟲技術觸類旁通,要學習的知識和規範還有喜很多,包括但不僅限於HTML 知識、HTTP/HTTPS 協議的基本知識、正則表達式、數據庫知識,常用抓包工具的使用、爬蟲框架的使用等。而且涉及到大規模爬蟲,還需要了解分布式的概念、消息隊列、常用的數據結構和算法、緩存,甚至還包括機器學習的應用,大規模的系統背後都是靠很多技術來支撐的。
零基礎如何學爬蟲技術?對於迷茫的初學者來說,爬蟲技術起步學習階段,最重要的就是明確學習路徑,找准學習方法,唯有如此,在良好的學習習慣督促下,後期的系統學習才會事半功倍,遊刃有餘。
用Python寫爬蟲,首先需要會Python,把基礎語法搞懂,知道怎麼使用函數、類和常用的數據結構如list、dict中的常用方法就算基本入門。作為入門爬蟲來說,需要了解 HTTP協議的基本原理,雖然 HTTP 規範用一本書都寫不完,但深入的內容可以放以後慢慢去看,理論與實踐相結合後期學習才會越來越輕鬆。關於爬蟲學習的具體步驟,我大概羅列了以下幾大部分,大家可以參考:
網絡爬蟲基礎知識:
爬蟲的定義
爬蟲的作用
Http協議
基本抓包工具(Fiddler)使用
Python模塊實現爬蟲:
urllib3、requests、lxml、bs4 模塊大體作用講解
使用requests模塊 get 方式獲取靜態頁面數據
使用requests模塊 post 方式獲取靜態頁面數據
使用requests模塊獲取 ajax 動態頁面數據
使用requests模塊模擬登錄網站
使用Tesseract進行驗證碼識別
Scrapy框架與Scrapy-Redis:
Scrapy 爬蟲框架大體說明
Scrapy spider 類
Scrapy item 及 pipeline
Scrapy CrawlSpider 類
通過Scrapy-Redis 實現分布式爬蟲
藉助自動化測試工具和瀏覽器爬取數據:
Selenium + PhantomJS 說明及簡單實例
Selenium + PhantomJS 實現網站登錄
Selenium + PhantomJS 實現動態頁面數據爬取
爬蟲項目實戰:
分布式爬蟲+ Elasticsearch 打造搜索引擎
python爬蟲前奏
在瀏覽器中發送http請求的過程:
1.當用戶在瀏覽器地址欄輸入URL並按回車鍵時,瀏覽器會向HTTP服務器發送HTTP請求。HTTP請求主要分為“獲取”和“發布”兩種方法。
2.當我們輸入網址htp://www百度。com在瀏覽器中,瀏覽器發送Request請求獲取HTP/www Baidu.com的html文件,服務器將Response文件對象發回瀏覽器。
3.瀏覽器分析響應中的HTML,發現它引用了很多其他文件,比如Images文件、CSS文件、JS文件。瀏覽器會自動再次發送一個獲取圖片、CSS文件或JS文件的請求。
4.當所有文件下載成功後,網頁將完全按照HTML語法結構顯示。
#url解釋:
URL是統一資源定位符的縮寫,統一資源定位符。
網址由以下部分組成:
scheme://host:port/path/ query-string = XXX # ancho
方案:表示訪問的協議,如http或https、ftp等。
主機:主機名、域名,如。
端口:端口號。當您訪問網站時,瀏覽器默認使用端口80。
路徑:找到路徑。例如,在,,以下趨勢/現在是路徑。
查詢字符串:查詢字符串,如?. Wd=python,後跟Wd = python,是搜索字符串。
錨點:錨點,背景一般忽略,前端用於頁面定位。
瀏覽器中的一個ufl,瀏覽器將對這個url進行編碼。除了英文字母、數字和一些符號之外,所有其他符號都用百分號加上十六進制代碼值進行編碼。
#請求頭通用參數:
在http協議中,當向服務器發送請求時,數據被分成三部分。第一個是把數據放在url中,第二個是把數據放在正文中(在post請求中),第三個是把數據放在頭部。這裡,我們介紹一些經常在網絡爬蟲中使用的請求頭參數:
用戶代理:瀏覽器名稱。這通常用於網絡爬蟲。當請求網頁時,服務器可以通過這個參數知道哪個瀏覽器發送了請求。如果我們通過爬蟲發送請求,那麼我們的用戶代理就是Python。對於那些有反爬蟲機制的網站,很容易判斷你的請求是爬蟲。因此,我們應該始終將此值設置為某些瀏覽器的值,以偽裝我們的爬蟲。
引用者:指示當前請求來自哪個網址。這也可以作為反爬蟲技術。如果不是來自指定頁面,則不會做出相關響應。
http協議是無狀態的。也就是說,同一個人發送了兩個請求,服務器無法知道這兩個請求是否來自同一個人。因此,此時使用cookie進行標識。一般來說,如果你想成為一個登錄後才能訪問的網站,你需要發送cookie信息。
常見的請求方法有:
在Http協議中,定義了八種請求方法。這裡介紹兩種常見的請求方法,即get請求和post請求。
Get request:一般來說,get request只在從服務器獲取數據時使用,不會對服務器資源產生任何影響。
發布請求:發送數據(登錄)、上傳文件等。,並在會影響服務器資源時使用post請求。
這是網站開發中常用的兩種方法。並且一般會遵循使用原則。然而,為了成為一個反爬蟲機制,一些網站和服務器經常出於常識玩牌。應該使用get方法的請求可能必須更改為post請求,這取決於具體情況。
常見響應狀態代碼:
00:請求正常,服務器正常最近數據。
31:永久重定向。例如,當您訪問時,您將被重定向到。
32:臨時重定向。例如,當訪問需要登錄的頁面時,此時沒有登錄,您將被重定向到登錄頁面。
400:在服務器上找不到請求的網址。換句話說,盾請求ur1錯誤。
403:服務器拒絕訪問,權限不足。
50:服務器內部錯誤。可能是服務器有bug。
如何用Python做爬蟲
1)首先你要明白爬蟲怎樣工作。
想象你是一隻蜘蛛,現在你被放到了互聯“網”上。那麼,你需要把所有的網頁都看一遍。怎麼辦呢?沒問題呀,你就隨便從某個地方開始,比如說人民日報的首頁,這個叫initial pages,用$表示吧。
在人民日報的首頁,你看到那個頁面引向的各種鏈接。於是你很開心地從爬到了“國內新聞”那個頁面。太好了,這樣你就已經爬完了倆頁面(首頁和國內新聞)!暫且不用管爬下來的頁面怎麼處理的,你就想象你把這個頁面完完整整抄成了個html放到了你身上。
突然你發現, 在國內新聞這個頁面上,有一個鏈接鏈回“首頁”。作為一隻聰明的蜘蛛,你肯定知道你不用爬回去的吧,因為你已經看過了啊。所以,你需要用你的腦子,存下你已經看過的頁面地址。這樣,每次看到一個可能需要爬的新鏈接,你就先查查你腦子裡是不是已經去過這個頁面地址。如果去過,那就別去了。
好的,理論上如果所有的頁面可以從initial page達到的話,那麼可以證明你一定可以爬完所有的網頁。
那麼在python里怎麼實現呢?
很簡單
import Queue
initial_page = “初始化頁”
url_queue = Queue.Queue()
seen = set()
seen.insert(initial_page)
url_queue.put(initial_page)
while(True): #一直進行直到海枯石爛
if url_queue.size()0:
current_url = url_queue.get() #拿出隊例中第一個的url
store(current_url) #把這個url代表的網頁存儲好
for next_url in extract_urls(current_url): #提取把這個url里鏈向的url
if next_url not in seen:
seen.put(next_url)
url_queue.put(next_url)
else:
break
寫得已經很偽代碼了。
所有的爬蟲的backbone都在這裡,下面分析一下為什麼爬蟲事實上是個非常複雜的東西——搜索引擎公司通常有一整個團隊來維護和開發。
2)效率
如果你直接加工一下上面的代碼直接運行的話,你需要一整年才能爬下整個豆瓣的內容。更別說Google這樣的搜索引擎需要爬下全網的內容了。
問題出在哪呢?需要爬的網頁實在太多太多了,而上面的代碼太慢太慢了。設想全網有N個網站,那麼分析一下判重的複雜度就是N*log(N),因為所有網頁要遍歷一次,而每次判重用set的話需要log(N)的複雜度。OK,OK,我知道python的set實現是hash——不過這樣還是太慢了,至少內存使用效率不高。
通常的判重做法是怎樣呢?Bloom Filter. 簡單講它仍然是一種hash的方法,但是它的特點是,它可以使用固定的內存(不隨url的數量而增長)以O(1)的效率判定url是否已經在set中。可惜天下沒有白吃的午餐,它的唯一問題在於,如果這個url不在set中,BF可以100%確定這個url沒有看過。但是如果這個url在set中,它會告訴你:這個url應該已經出現過,不過我有2%的不確定性。注意這裡的不確定性在你分配的內存足夠大的時候,可以變得很小很少。一個簡單的教程:Bloom Filters by Example
注意到這個特點,url如果被看過,那麼可能以小概率重複看一看(沒關係,多看看不會累死)。但是如果沒被看過,一定會被看一下(這個很重要,不然我們就要漏掉一些網頁了!)。 [IMPORTANT: 此段有問題,請暫時略過]
好,現在已經接近處理判重最快的方法了。另外一個瓶頸——你只有一台機器。不管你的帶寬有多大,只要你的機器下載網頁的速度是瓶頸的話,那麼你只有加快這個速度。用一台機子不夠的話——用很多台吧!當然,我們假設每台機子都已經進了最大的效率——使用多線程(python的話,多進程吧)。
3)集群化抓取
爬取豆瓣的時候,我總共用了100多台機器晝夜不停地運行了一個月。想象如果只用一台機子你就得運行100個月了…
那麼,假設你現在有100台機器可以用,怎麼用python實現一個分布式的爬取算法呢?
我們把這100台中的99台運算能力較小的機器叫作slave,另外一台較大的機器叫作master,那麼回顧上面代碼中的url_queue,如果我們能把這個queue放到這台master機器上,所有的slave都可以通過網絡跟master聯通,每當一個slave完成下載一個網頁,就向master請求一個新的網頁來抓取。而每次slave新抓到一個網頁,就把這個網頁上所有的鏈接送到master的queue里去。同樣,bloom filter也放到master上,但是現在master只發送確定沒有被訪問過的url給slave。Bloom Filter放到master的內存里,而被訪問過的url放到運行在master上的Redis里,這樣保證所有操作都是O(1)。(至少平攤是O(1),Redis的訪問效率見:LINSERT – Redis)
考慮如何用python實現:
在各台slave上裝好scrapy,那麼各台機子就變成了一台有抓取能力的slave,在master上裝好Redis和rq用作分布式隊列。
代碼於是寫成
#slave.py
current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
to_send.append(next_url)
store(current_url);
send_to_master(to_send)
#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()
initial_pages = “”
while(True):
if request == ‘GET’:
if distributed_queue.size()0:
send(distributed_queue.get())
else:
break
elif request == ‘POST’:
bf.put(request.url)
好的,其實你能想到,有人已經給你寫好了你需要的:darkrho/scrapy-redis · GitHub
4)展望及後處理
雖然上面用很多“簡單”,但是真正要實現一個商業規模可用的爬蟲並不是一件容易的事。上面的代碼用來爬一個整體的網站幾乎沒有太大的問題。
但是如果附加上你需要這些後續處理,比如
有效地存儲(數據庫應該怎樣安排)
有效地判重(這裡指網頁判重,咱可不想把人民日報和抄襲它的大民日報都爬一遍)
有效地信息抽取(比如怎麼樣抽取出網頁上所有的地址抽取出來,“朝陽區奮進路中華道”),搜索引擎通常不需要存儲所有的信息,比如圖片我存來幹嘛…
及時更新(預測這個網頁多久會更新一次)
如你所想,這裡每一個點都可以供很多研究者十數年的研究。雖然如此,
“路漫漫其修遠兮,吾將上下而求索”。
所以,不要問怎麼入門,直接上路就好了:)
如何入門 Python 爬蟲?
“入門”是良好的動機,但是可能作用緩慢。如果你手裡或者腦子裡有一個項目,那麼實踐起來你會被目標驅動,而不會像學習模塊一樣慢慢學習。
如果你想要入門Python爬蟲,你需要做很多準備。首先是熟悉python編程;其次是了解HTML;
還要了解網絡爬蟲的基本原理;最後是學習使用python爬蟲庫。
如果你不懂python,那麼需要先學習python這門非常easy的語言。編程語言基礎語法無非是數據類型、數據結構、運算符、邏輯結構、函數、文件IO、錯誤處理這些,學起來會顯枯燥但並不難。
剛開始入門爬蟲,你甚至不需要去學習python的類、多線程、模塊之類的略難內容。找一個面向初學者的教材或者網絡教程,花個十幾天功夫,就能對python基礎有個三四分的認識了。
網絡爬蟲的含義:
網絡爬蟲,其實也可以叫做網絡數據採集更容易理解。就是通過編程向網絡服務器請求數據(HTML表單),然後解析HTML,提取出自己想要的數據。
這會涉及到數據庫、網絡服務器、HTTP協議、HTML、數據科學、網絡安全、圖像處理等非常多的內容。但對於初學者而言,並不需要掌握這麼多。
如何學習python爬蟲
爬蟲是入門Python最好的方式,沒有之一。 Python有很多應用的方向,比如後台開發、web開發、科學計算等等,但爬蟲對於初學者而
言更友好,原理簡單,幾行代碼就能實現基本的爬蟲,學習的過程更加平滑,你能體會更大的成就感。
掌握基本的爬蟲後,你再去學習Python數據分析、web開發甚至機器學習,都會更得心應手。因為這個過程中,Python基本語法、庫的
使用,以及如何查找文檔你都非常熟悉了。
對於小白來說,爬蟲可能是一件非常複雜、技術門檻很高的事情。比如有的人則認為先要掌握網頁的知識,遂 開始 HTMLCSS,結果入了前端的坑 ,瘁……
但掌握正確的方法,在短時間內做到能夠爬取主流網站的數據,其實非常容易實現,但建議你從 一開始就要有一個具體的目標。
在目標的驅動下,你的學習才會更加精準和高效。 那些所有你認為必須的前置知識,都是可以在完成目標的過程中學到的。 這裡給你一
條平滑的、零基礎快速入門的學習路徑。
python學習網,免費的python學習網站,歡迎在線學習!
學習 Python 包並實現基本的爬蟲過程
大部分爬蟲都是按 “發送請求——獲得頁面——解析頁面——抽取並儲存內容” 這樣的流程來進行,這其實也是模擬了我們使用瀏覽器
獲取網頁信息的過程。
Python中爬蟲相關的包很多:urllib、requests、bs4、scrapy、pyspider 等, 建議從requests+Xpath 開始 ,requests 負責連接網
站,返回網頁,Xpath 用於解析網頁,便於抽取數據。
如果你用過 BeautifulSoup,會發現 Xpath 要省事不少,一層一層檢查元素代碼的工作,全都省略了。這樣下來基本套路都差不多, 一
般的靜態網站根本不在話下,豆瓣、糗事百科、騰訊新聞等基本上都可以上手了 。
掌握各種技巧,應對特殊網站的反爬措施
當然,爬蟲過程中也會經歷一些絕望啊,比如被網站封IP、比如各種奇怪的驗證碼、userAgent訪問限制、各種動態加載等等。
遇到這些反爬蟲的手段,當然還需要一些高級的技巧來應對,常規的比如 訪問頻率控制、使用代理IP池、抓包、驗證碼的OCR處理等等 。
往往網站在高效開發和反爬蟲之間會偏向前者,這也為爬蟲提供了空間,掌握這些應對反爬蟲的技巧,絕大部分的網站已經難不到你了。
學習 scrapy,搭建工程化的爬蟲
掌握前面的技術一般量級的數據和代碼基本沒有問題了,但是在遇到非常複雜的情況,可能仍然會力不從心,這個時候,強大的 scrapy
框架就非常有用了。
scrapy 是一個功能非常強大的爬蟲框架,它不僅能便捷地構建request,還有強大的 selector 能夠方便地解析 response,然而它最讓人
驚喜的還是它超高的性能,讓你可以將爬蟲工程化、模塊化。
學會 scrapy,你可以自己去搭建一些爬蟲框架,你就基本具備爬蟲工程師的思維了。
學習數據庫基礎,應對大規模數據存儲
爬回來的數據量小的時候,你可以用文檔的形式來存儲,一旦數據量大了,這就有點行不通了。所以掌握一種數據庫是必須的,學習目前
比較主流的 MongoDB 就OK。
MongoDB 可以方便你去存儲一些非結構化的數據 ,比如各種評論的文本,圖片的鏈接等等。你也可以利用PyMongo,更方便地在
Python中操作MongoDB。
因為這裡要用到的數據庫知識其實非常簡單,主要是 數據如何入庫、如何進行提取 ,在需要的時候再學習就行。
分布式爬蟲,實現大規模並發採集
爬取基本數據已經不是問題了,你的瓶頸會集中到爬取海量數據的效率。這個時候,相信你會很自然地接觸到一個很厲害的名字: 分布
式爬蟲 。
分布式這個東西,聽起來很恐怖, 但其實就是利用多線程的原理讓多個爬蟲同時工作 ,需要你掌握 Scrapy + MongoDB + Redis 這三種工具 。
Scrapy 前面我們說過了,用於做基本的頁面爬取,MongoDB 用於存儲爬取的數據,Redis 則用來存儲要爬取的網頁隊列,也就是任務
隊列。
所以有些東西看起來很嚇人,但其實分解開來,也不過如此。當你能夠寫分布式的爬蟲的時候,那麼你可以去嘗試打造一些基本的爬蟲架
構了,實現一些更加自動化的數據獲取。
你看,這一條學習路徑下來,你已然可以成為老司機了,非常的順暢。所以在一開始的時候,盡量不要系統地去啃一些東西,找一個實際
的項目(開始可以從豆瓣、小豬這種簡單的入手),直接開始就好 。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/285822.html