python爬蟲的掉坑之路（python爬蟲坐牢）

本文目錄一覽：

1、python編程遇到的幾個坑
2、精通Python網路爬蟲之網路爬蟲學習路線
3、python網路爬蟲怎麼學習

python編程遇到的幾個坑

1. 爬個別特定網站，不一定得用python寫爬蟲，多數情況wget一條命令多數網站就能爬的不錯，真的玩到自己寫爬蟲了，最終遇到的無非是如何做大做壯，怎麼做分散式爬蟲。scrapy這種價值接近0，非同步或者多線程搞抓取，選一個成熟的基於磁碟的隊列庫，kafka之類的，scrapy幫了啥？

2. http庫眾多，還有gevent庫monkey patch以後coroutine的玩這一選擇，規模千萬的話urllib3很好。

3. 對付網站的諸如登錄、ajax，這種不過是體力民工活，不展開了。

4. 速度很重要，放ec2或者國內的雲上跑，很重要的指標是你每一億網頁爬下來成本多少，爬的時候比如4核一個虛擬機節點，你能inbound貸款用足100mbps嗎。

5. beautifulsoup太慢，全網的爬，encoding的分析也要要快，c實現的chardet還行

最關鍵的，永遠是爬下來以後的信息的提取、分析、使用，就是另外一個話題了。

1.學會使用chrome瀏覽器查看通信以及查看元素格式

2.增加User-Agent, 這是最簡單的反爬措施了

3.寫爬蟲最好使用Ipython，在互動式的環境下，可以時刻了解自己問題具體出在哪裡

4.使用requests

5.用get或者post下好html之後，要確認你需要的東西html裡面有，而不是之後用ajax或者javascript載入的。

6.解析的話，BeautifulSoup不錯。對於少數非常特殊的，可以考慮用re。

7，需要大量採集數據的話，學會使用框架，比如scrapy。

進階：

加入網站需要模擬登陸，裡面使用了很多ajax或者javascript，或者反爬蟲厲害，用requests的session，注意F12查看到底發送了什麼數據。

實在不會，就使用模擬瀏覽器吧，推薦selenium，雖然速度慢點，內存多點，但是真的很省力，而且基本查不出來。

最後，爬蟲速度不要太快，加上time.sleep(1),盡量少用多線程，別人建站也不容易，（尤其是小站）你不給別人帶來很大的麻煩，別人也就睜一隻眼閉一隻眼了，否則封IP不是好玩的。

有些頁面喜歡使用redirect，然而requests的get和post方法中默認是直接跳轉的！很可能你就帶著錯誤的cookies和headers跳轉了，所以務必將allow_redirects參數設為false

精通Python網路爬蟲之網路爬蟲學習路線

欲精通Python網路爬蟲，必先了解網路爬蟲學習路線，本篇經驗主要解決這個問題。部分內容參考自書籍《精通Python網路爬蟲》。

作者：韋瑋

轉載請註明出處

隨著大數據時代的到來，人們對數據資源的需求越來越多，而爬蟲是一種很好的自動採集數據的手段。

那麼，如何才能精通Python網路爬蟲呢？學習Python網路爬蟲的路線應該如何進行呢？在此為大家具體進行介紹。

1、選擇一款合適的編程語言

事實上，Python、PHP、JAVA等常見的語言都可以用於編寫網路爬蟲，你首先需要選擇一款合適的編程語言，這些編程語言各有優勢，可以根據習慣進行選擇。在此筆者推薦使用Python進行爬蟲項目的編寫，其優點是：簡潔、掌握難度低。

2、掌握Python的一些基礎爬蟲模塊

當然，在進行這一步之前，你應當先掌握Python的一些簡單語法基礎，然後才可以使用Python語言進行爬蟲項目的開發。

在掌握了Python的語法基礎之後，你需要重點掌握一個Python的關於爬蟲開發的基礎模塊。這些模塊有很多可以供你選擇，比如urllib、requests等等，只需要精通一個基礎模塊即可，不必要都精通，因為都是大同小異的，在此推薦的是掌握urllib，當然你可以根據你的習慣進行選擇。

3、深入掌握一款合適的表達式

學會了如何爬取網頁內容之後，你還需要學會進行信息的提取。事實上，信息的提取你可以通過表達式進行實現，同樣，有很多表達式可以供你選擇使用，常見的有正則表達式、XPath表達式、BeautifulSoup等，這些表達式你沒有必要都精通，同樣，精通1-2個，其他的掌握即可，在此建議精通掌握正則表達式以及XPath表達式，其他的了解掌握即可。正則表達式可以處理的數據的範圍比較大，簡言之，就是能力比較強，XPath只能處理XML格式的數據，有些形式的數據不能處理，但XPath處理數據會比較快。

4、深入掌握抓包分析技術

事實上，很多網站都會做一些反爬措施，即不想讓你爬到他的數據。最常見的反爬手段就是對數據進行隱藏處理，這個時候，你就無法直接爬取相關的數據了。作為爬蟲方，如果需要在這種情況下獲取數據，那麼你需要對相應的數據進行抓包分析，然後再根據分析結果進行處理。一般推薦掌握的抓包分析工具是Fiddler，當然你也可以用其他的抓包分析工具，沒有特別的要求。

5、精通一款爬蟲框架

事實上，當你學習到這一步的時候，你已經入門了。

這個時候，你可能需要深入掌握一款爬蟲框架，因為採用框架開發爬蟲項目，效率會更加高，並且項目也會更加完善。

同樣，你可以有很多爬蟲框架進行選擇，比如Scrapy、pySpider等等，一樣的，你沒必要每一種框架都精通，只需要精通一種框架即可，其他框架都是大同小異的，當你深入精通一款框架的時候，其他的框架了解一下事實上你便能輕鬆使用，在此推薦掌握Scrapy框架，當然你可以根據習慣進行選擇。

6、掌握常見的反爬策略與反爬處理策略

反爬，是相對於網站方來說的，對方不想給你爬他站點的數據，所以進行了一些限制，這就是反爬。

反爬處理，是相對於爬蟲方來說的，在對方進行了反爬策略之後，你還想爬相應的數據，就需要有相應的攻克手段，這個時候，就需要進行反爬處理。

事實上，反爬以及反爬處理都有一些基本的套路，萬變不離其宗，這些後面作者會具體提到，感興趣的可以關注。

常見的反爬策略主要有：

IP限制

UA限制

Cookie限制

資源隨機化存儲

動態載入技術

……

對應的反爬處理手段主要有：

IP代理池技術

用戶代理池技術

Cookie保存與處理

自動觸發技術

抓包分析技術+自動觸發技術

……

這些大家在此先有一個基本的思路印象即可，後面都會具體通過實戰案例去介紹。

7、掌握PhantomJS、Selenium等工具的使用

有一些站點，通過常規的爬蟲很難去進行爬取，這個時候，你需要藉助一些工具模塊進行，比如PhantomJS、Selenium等，所以，你還需要掌握PhantomJS、Selenium等工具的常規使用方法。

8、掌握分散式爬蟲技術與數據去重技術

如果你已經學習或者研究到到了這裡，那麼恭喜你，相信現在你爬任何網站都已經不是問題了，反爬對你來說也只是一道形同虛設的牆而已了。

但是，如果要爬取的資源非常非常多，靠一個單機爬蟲去跑，仍然無法達到你的目的，因為太慢了。

所以，這個時候，你還應當掌握一種技術，就是分散式爬蟲技術，分散式爬蟲的架構手段有很多，你可以依據真實的伺服器集群進行，也可以依據虛擬化的多台伺服器進行，你可以採用urllib+redis分散式架構手段，也可以採用Scrapy+redis架構手段，都沒關係，關鍵是，你可以將爬蟲任務部署到多台伺服器中就OK。

至於數據去重技術，簡單來說，目的就是要去除重複數據，如果數據量小，直接採用資料庫的數據約束進行實現，如果數據量很大，建議採用布隆過濾器實現數據去重即可，布隆過濾器的實現在Python中也是不難的。

以上是如果你想精通Python網路爬蟲的學習研究路線，按照這些步驟學習下去，可以讓你的爬蟲技術得到非常大的提升。

至於有些朋友問到，使用Windows系統還是Linux系統，其實，沒關係的，一般建議學習的時候使用Windows系統進行就行，比較考慮到大部分朋友對該系統比較數據，但是在實際運行爬蟲任務的時候，把爬虫部署到Linux系統中運行，這樣效率比較高。由於Python的可移植性非常好，所以你在不同的平台中運行一個爬蟲，代碼基本上不用進行什麼修改，只需要學會部署到Linux中即可。所以，這也是為什麼說使用Windows系統還是Linux系統進行學習都沒多大影響的原因之一。

本篇文章主要是為那些想學習Python網路爬蟲，但是又不知道從何學起，怎麼學下去的朋友而寫的。希望通過本篇文章，可以讓你對Python網路爬蟲的研究路線有一個清晰的了解，這樣，本篇文章的目的就達到了，加油！

本文章由作者韋瑋原創，轉載請註明出處。

python網路爬蟲怎麼學習

鏈接：

提取碼：2b6c

課程簡介

畢業不知如何就業？工作效率低經常挨罵？很多次想學編程都沒有學會？

Python 實戰：四周實現爬蟲系統，無需編程基礎，二十八天掌握一項謀生技能。

帶你學到如何從網上批量獲得幾十萬數據，如何處理海量大數據，數據可視化及網站製作。

課程目錄

開始之前，魔力手冊 for 實戰學員預習

第一周：學會爬取網頁信息

第二周：學會爬取大規模數據

第三周：數據統計與分析

第四周：搭建 Django 數據可視化網站

……

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/181496.html

python爬蟲的掉坑之路（python爬蟲坐牢）

本文目錄一覽：

python編程遇到的幾個坑

精通Python網路爬蟲之網路爬蟲學習路線

python網路爬蟲怎麼學習

相關推薦

發表回復