python16882020爬蟲（python 1073740791）

本文目錄一覽：

1、python爬蟲需要什麼基礎
2、python裡面的爬蟲是什麼？
3、Python中怎麼用爬蟲爬
4、Python爬蟲是什麼？
5、python爬蟲需要學多久?
6、Python爬蟲如何寫？

python爬蟲需要什麼基礎

1. 學習Python基礎知識並實現基本的爬蟲過程

一般獲取數據的過程都是按照發送請求-獲得頁面反饋-解析並且存儲數據這三個流程來實現的。這個過程其實就是模擬了一個人工瀏覽網頁的過程。

Python中爬蟲相關的包很多：urllib、requests、bs4、scrapy、pyspider 等，我們可以按照requests

負責連接網站，返回網頁，Xpath 用於解析網頁，便於抽取數據。

2.了解非結構化數據的存儲

爬蟲抓取的數據結構複雜傳統的結構化數據庫可能並不是特別適合我們使用。我們前期推薦使用MongoDB 就可以。

3. 掌握一些常用的反爬蟲技巧

使用代理IP池、抓包、驗證碼的OCR處理等處理方式即可以解決大部分網站的反爬蟲策略。

4.了解分布式存儲

分布式這個東西，聽起來很恐怖，但其實就是利用多線程的原理讓多個爬蟲同時工作，需要你掌握 Scrapy + MongoDB + Redis

這三種工具就可以了。

python裡面的爬蟲是什麼？

世界上80%的爬蟲是基於Python開發的，學好爬蟲技能，可為後續的大數據分析、挖掘、機器學習等提供重要的數據源。

什麼是爬蟲？

網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

其實通俗的講就是通過程序去獲取web頁面上自己想要的數據，也就是自動抓取數據

爬蟲可以做什麼？

你可以用爬蟲爬圖片，爬取視頻等等你想要爬取的數據，只要你能通過瀏覽器訪問的數據都可以通過爬蟲獲取。

Python中怎麼用爬蟲爬

Python爬蟲可以爬取的東西有很多，Python爬蟲怎麼學？簡單的分析下：

如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，互聯網可以獲取的數據越來越多，另一方面，像 Python這樣的編程語言提供越來越多的優秀工具，讓爬蟲變得簡單、容易上手。

利用爬蟲我們可以獲取大量的價值數據，從而獲得感性認識中不能得到的信息，比如：

知乎：爬取優質答案，為你篩選出各話題下最優質的內容。

淘寶、京東：抓取商品、評論及銷量數據，對各種商品及用戶的消費場景進行分析。

安居客、鏈家：抓取房產買賣及租售信息，分析房價變化趨勢、做不同區域的房價分析。

拉勾網、智聯：爬取各類職位信息，分析各行業人才需求情況及薪資水平。

雪球網：抓取雪球高回報用戶的行為，對股票市場進行分析和預測。

爬蟲是入門Python最好的方式，沒有之一。Python有很多應用的方向，比如後台開發、web開發、科學計算等等，但爬蟲對於初學者而言更友好，原理簡單，幾行代碼就能實現基本的爬蟲，學習的過程更加平滑，你能體會更大的成就感。

掌握基本的爬蟲後，你再去學習Python數據分析、web開發甚至機器學習，都會更得心應手。因為這個過程中，Python基本語法、庫的使用，以及如何查找文檔你都非常熟悉了。

對於小白來說，爬蟲可能是一件非常複雜、技術門檻很高的事情。比如有人認為學爬蟲必須精通 Python，然後哼哧哼哧系統學習 Python 的每個知識點，很久之後發現仍然爬不了數據；有的人則認為先要掌握網頁的知識，遂開始 HTMLCSS，結果入了前端的坑，瘁……

但掌握正確的方法，在短時間內做到能夠爬取主流網站的數據，其實非常容易實現，但建議你從一開始就要有一個具體的目標。

在目標的驅動下，你的學習才會更加精準和高效。那些所有你認為必須的前置知識，都是可以在完成目標的過程中學到的。這裡給你一條平滑的、零基礎快速入門的學習路徑。

1.學習 Python 包並實現基本的爬蟲過程

2.了解非結構化數據的存儲

3.學習scrapy，搭建工程化爬蟲

4.學習數據庫知識，應對大規模數據存儲與提取

5.掌握各種技巧，應對特殊網站的反爬措施

6.分布式爬蟲，實現大規模並發採集，提升效率

Python爬蟲是什麼？

為自動提取網頁的程序，它為搜索引擎從萬維網上下載網頁。

網絡爬蟲為一個自動提取網頁的程序，它為搜索引擎從萬維網上下載網頁，是搜索引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。

將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁URL，並重複上述過程，直到達到系統的某一條件時停止。另外，所有被爬蟲抓取的網頁將會被系統存貯，進行一定的分析、過濾，並建立索引，以便之後的查詢和檢索。

擴展資料：

網絡爬蟲的相關要求規定：

1、由Python標準庫提供了系統管理、網絡通信、文本處理、數據庫接口、圖形系統、XML處理等額外的功能。

2、按照網頁內容目錄層次深淺來爬行頁面，處於較淺目錄層次的頁面首先被爬行。當同一層次中的頁面爬行完畢後，爬蟲再深入下一層繼續爬行。

3、文本處理，包含文本格式化、正則表達式匹配、文本差異計算與合併、Unicode支持，二進制數據處理等功能。

參考資料來源：百度百科-網絡爬蟲

python爬蟲需要學多久?

完全掌握Python參加培訓需要4-6個月左右，如果單純的入門的話1-2個月左右就差不多了。

Python爬蟲就是使用Pythoni程序開發的網絡爬蟲，是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本，主要用於搜索引擎，它將一個網站的所有內容與鏈接進行閱讀，並建立相關的全文素引到數據庫中，然後跳到另一個網站。

Python開發軟件可根據其用途不同分為兩種，一種是Python代碼編輯器，一種是Python集成開發工具，兩者的配合使用可以極大的提高Python開發人員的編程效率。

Python爬蟲如何寫？

先檢查是否有API

API是網站官方提供的數據接口，如果通過調用API採集數據，則相當於在網站允許的範圍內採集，這樣既不會有道德法律風險，也沒有網站故意設置的障礙；不過調用API接口的訪問則處於網站的控制中，網站可以用來收費，可以用來限制訪問上限等。整體來看，如果數據採集的需求並不是很獨特，那麼有API則應優先採用調用API的方式。

數據結構分析和數據存儲

爬蟲需求要十分清晰，具體表現為需要哪些字段，這些字段可以是網頁上現有的，也可以是根據網頁上現有的字段進一步計算的，這些字段如何構建表，多張表如何連接等。值得一提的是，確定字段環節，不要只看少量的網頁，因為單個網頁可以缺少別的同類網頁的字段，這既有可能是由於網站的問題，也可能是用戶行為的差異，只有多觀察一些網頁才能綜合抽象出具有普適性的關鍵字段——這並不是幾分鐘看幾個網頁就可以決定的簡單事情，如果遇上了那種臃腫、混亂的網站，可能坑非常多。

對於大規模爬蟲，除了本身要採集的數據外，其他重要的中間數據（比如頁面Id或者url）也建議存儲下來，這樣可以不必每次重新爬取id。

數據庫並沒有固定的選擇，本質仍是將Python里的數據寫到庫里，可以選擇關係型數據庫MySQL等，也可以選擇非關係型數據庫MongoDB等；對於普通的結構化數據一般存在關係型數據庫即可。sqlalchemy是一個成熟好用的數據庫連接框架，其引擎可與Pandas配套使用，把數據處理和數據存儲連接起來，一氣呵成。

數據流分析

對於要批量爬取的網頁，往上一層，看它的入口在哪裡；這個是根據採集範圍來確定入口，比如若只想爬一個地區的數據，那從該地區的主頁切入即可；但若想爬全國數據，則應更往上一層，從全國的入口切入。一般的網站網頁都以樹狀結構為主，找到切入點作為根節點一層層往裡進入即可。

值得注意的一點是，一般網站都不會直接把全量的數據做成列表給你一頁頁往下翻直到遍歷完數據，比如鏈家上面很清楚地寫着有24587套二手房，但是它只給100頁，每頁30個，如果直接這麼切入只能訪問3000個，遠遠低於真實數據量；因此先切片，再整合的數據思維可以獲得更大的數據量。顯然100頁是系統設定，只要超過300個就只顯示100頁，因此可以通過其他的篩選條件不斷細分，只到篩選結果小於等於300頁就表示該條件下沒有缺漏；最後把各種條件下的篩選結果集合在一起，就能夠儘可能地還原真實數據量。

明確了大規模爬蟲的數據流動機制，下一步就是針對單個網頁進行解析，然後把這個模式複製到整體。對於單個網頁，採用抓包工具可以查看它的請求方式，是get還是post，有沒有提交表單，欲採集的數據是寫入源代碼里還是通過AJAX調用JSON數據。

同樣的道理，不能只看一個頁面，要觀察多個頁面，因為批量爬蟲要弄清這些大量頁面url以及參數的規律，以便可以自動構造；有的網站的url以及關鍵參數是加密的，這樣就悲劇了，不能靠着明顯的邏輯直接構造，這種情況下要批量爬蟲，要麼找到它加密的js代碼，在爬蟲代碼上加入從明文到密碼的加密過程；要麼採用下文所述的模擬瀏覽器的方式。

數據採集

之前用R做爬蟲，不要笑，R的確可以做爬蟲工作；但在爬蟲方面，Python顯然優勢更明顯，受眾更廣，這得益於其成熟的爬蟲框架，以及其他的在計算機系統上更好的性能。scrapy是一個成熟的爬蟲框架，直接往裡套用就好，比較適合新手學習；requests是一個比原生的urllib包更簡潔強大的包，適合作定製化的爬蟲功能。requests主要提供一個基本訪問功能，把網頁的源代碼給download下來。一般而言，只要加上跟瀏覽器同樣的Requests Headers參數，就可以正常訪問，status_code為200，並成功得到網頁源代碼；但是也有某些反爬蟲較為嚴格的網站，這麼直接訪問會被禁止；或者說status為200也不會返回正常的網頁源碼，而是要求寫驗證碼的js腳本等。

下載到了源碼之後，如果數據就在源碼中，這種情況是最簡單的，這就表示已經成功獲取到了數據，剩下的無非就是數據提取、清洗、入庫。但若網頁上有，然而源代碼里沒有的，就表示數據寫在其他地方，一般而言是通過AJAX異步加載JSON數據，從XHR中找即可找到；如果這樣還找不到，那就需要去解析js腳本了。

解析工具

源碼下載後，就是解析數據了，常用的有兩種方法，一種是用BeautifulSoup對樹狀HTML進行解析，另一種是通過正則表達式從文本中抽取數據。

BeautifulSoup比較簡單，支持Xpath和CSSSelector兩種途徑，而且像Chrome這類瀏覽器一般都已經把各個結點的Xpath或者CSSSelector標記好了，直接複製即可。以CSSSelector為例，可以選擇tag、id、class等多種方式進行定位選擇，如果有id建議選id，因為根據HTML語法，一個id只能綁定一個標籤。

正則表達式很強大，但構造起來有點複雜，需要專門去學習。因為下載下來的源碼格式就是字符串，所以正則表達式可以大顯身手，而且處理速度很快。

對於HTML結構固定，即同樣的字段處tag、id和class名稱都相同，採用BeautifulSoup解析是一種簡單高效的方案，但有的網站混亂，同樣的數據在不同頁面間HTML結構不同，這種情況下BeautifulSoup就不太好使；如果數據本身格式固定，則用正則表達式更方便。比如以下的例子，這兩個都是深圳地區某個地方的經度，但一個頁面的class是long，一個頁面的class是longitude，根據class來選擇就沒辦法同時滿足2個，但只要注意到深圳地區的經度都是介於113到114之間的浮點數，就可以通過正則表達式”11[3-4].\d+”來使兩個都滿足。

數據整理

一般而言，爬下來的原始數據都不是清潔的，所以在入庫前要先整理；由於大部分都是字符串，所以主要也就是字符串的處理方式了。

字符串自帶的方法可以滿足大部分簡單的處理需求，比如strip可以去掉首尾不需要的字符或者換行符等，replace可以將指定部分替換成需要的部分，split可以在指定部分分割然後截取一部分。

如果字符串處理的需求太複雜以致常規的字符串處理方法不好解決，那就要請出正則表達式這個大殺器。

Pandas是Python中常用的數據處理模塊，雖然作為一個從R轉過來的人一直覺得這個模仿R的包實在是太難用了。Pandas不僅可以進行向量化處理、篩選、分組、計算，還能夠整合成DataFrame，將採集的數據整合成一張表，呈現最終的存儲效果。

寫入數據庫

如果只是中小規模的爬蟲，可以把最後的爬蟲結果匯合成一張表，最後導出成一張表格以便後續使用；但對於表數量多、單張表容量大的大規模爬蟲，再導出成一堆零散的表就不合適了，肯定還是要放在數據庫中，既方便存儲，也方便進一步整理。

寫入數據庫有兩種方法，一種是通過Pandas的DataFrame自帶的to_sql方法，好處是自動建表，對於對錶結構沒有嚴格要求的情況下可以採用這種方式，不過值得一提的是，如果是多行的DataFrame可以直接插入不加索引，但若只有一行就要加索引否則報錯，雖然這個認為不太合理；另一種是利用數據庫引擎來執行SQL語句，這種情況下要先自己建表，雖然多了一步，但是表結構完全是自己控制之下。Pandas與SQL都可以用來建表、整理數據，結合起來使用效率更高。

原創文章，作者：M61AE，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/130635.html