本文目錄一覽:
- 1、如何使用python 抓取雪球網頁
- 2、零基礎小白如何在最短的時間快速入門python爬蟲
- 3、用python寫一個爬蟲有多難
- 4、python 爬蟲自學要多久
- 5、如何使用 Python 抓取雪球網頁
如何使用python 抓取雪球網頁
需要兩個模塊配合:
爬蟲模塊:單純負責抓取和存儲數據
數據處理模塊:處理爬蟲存儲的數據。如發現某個人某個持倉數據發生了變化,向你發出通知
該爬蟲的簡單的流程:
定時訪問目標頁面
抓取當前目標頁面的數據,存入數據庫
數據處理模塊簡單的流程:
定時訪問數據庫
數據庫中的數據滿足某個條件時執行自己設定的動作
零基礎小白如何在最短的時間快速入門python爬蟲
Python爬蟲為什麼受歡迎?Python爬蟲應該怎麼學?
如果你仔細觀察,就不難發現,懂爬蟲、學習爬蟲的人越來越多,一方面,互聯網可以獲取的數據越來越多,另一方面,像 Python這樣的編程語言提供越來越多的優秀工具,讓爬蟲變得簡單、容易上手。
利用爬蟲我們可以獲取大量的價值數據,從而獲得感性認識中不能得到的信息,比如:
知乎:爬取優質答案,為你篩選出各話題下最優質的內容。
淘寶、京東:抓取商品、評論及銷量數據,對各種商品及用戶的消費場景進行分析。
安居客、鏈家:抓取房產買賣及租售信息,分析房價變化趨勢、做不同區域的房價分析。
拉勾網、智聯:爬取各類職位信息,分析各行業人才需求情況及薪資水平。
雪球網:抓取雪球高回報用戶的行為,對股票市場進行分析和預測。
爬蟲是入門Python最好的方式,沒有之一。Python有很多應用的方向,比如後台開發、web開發、科學計算等等,但爬蟲對於初學者而言更友好,原理簡單,幾行代碼就能實現基本的爬蟲,學習的過程更加平滑,你能體會更大的成就感。
掌握基本的爬蟲後,你再去學習Python數據分析、web開發甚至機器學習,都會更得心應手。因為這個過程中,Python基本語法、庫的使用,以及如何查找文檔你都非常熟悉了。
對於小白來說,爬蟲可能是一件非常複雜、技術門檻很高的事情。比如有人認為學爬蟲必須精通 Python,然後哼哧哼哧系統學習 Python 的每個知識點,很久之後發現仍然爬不了數據;有的人則認為先要掌握網頁的知識,遂開始 HTMLCSS,結果入了前端的坑,瘁……
但掌握正確的方法,在短時間內做到能夠爬取主流網站的數據,其實非常容易實現,但建議你從一開始就要有一個具體的目標。
在目標的驅動下,你的學習才會更加精準和高效。那些所有你認為必須的前置知識,都是可以在完成目標的過程中學到的。這裡給你一條平滑的、零基礎快速入門的學習路徑。
1.學習 Python 包並實現基本的爬蟲過程
2.了解非結構化數據的存儲
3.學習scrapy,搭建工程化爬蟲
4.學習數據庫知識,應對大規模數據存儲與提取
5.掌握各種技巧,應對特殊網站的反爬措施
6.分佈式爬蟲,實現大規模並發採集,提升效率
一
學習 Python 包並實現基本的爬蟲過程
大部分爬蟲都是按「發送請求——獲得頁面——解析頁面——抽取並儲存內容」這樣的流程來進行,這其實也是模擬了我們使用瀏覽器獲取網頁信息的過程。
Python中爬蟲相關的包很多:urllib、requests、bs4、scrapy、pyspider 等,建議從requests+Xpath 開始,requests 負責連接網站,返回網頁,Xpath 用於解析網頁,便於抽取數據。
如果你用過 BeautifulSoup,會發現 Xpath 要省事不少,一層一層檢查元素代碼的工作,全都省略了。這樣下來基本套路都差不多,一般的靜態網站根本不在話下,豆瓣、糗事百科、騰訊新聞等基本上都可以上手了。
當然如果你需要爬取異步加載的網站,可以學習瀏覽器抓包分析真實請求或者學習Selenium來實現自動化,這樣,知乎、時光網、貓途鷹這些動態的網站也可以迎刃而解。
二
了解非結構化數據的存儲
爬回來的數據可以直接用文檔形式存在本地,也可以存入數據庫中。
開始數據量不大的時候,你可以直接通過 Python 的語法或 pandas 的方法將數據存為csv這樣的文件。
當然你可能發現爬回來的數據並不是乾淨的,可能會有缺失、錯誤等等,你還需要對數據進行清洗,可以學習 pandas 包的基本用法來做數據的預處理,得到更乾淨的數據。
三
學習 scrapy,搭建工程化的爬蟲
掌握前面的技術一般量級的數據和代碼基本沒有問題了,但是在遇到非常複雜的情況,可能仍然會力不從心,這個時候,強大的 scrapy 框架就非常有用了。
scrapy 是一個功能非常強大的爬蟲框架,它不僅能便捷地構建request,還有強大的 selector 能夠方便地解析 response,然而它最讓人驚喜的還是它超高的性能,讓你可以將爬蟲工程化、模塊化。
學會 scrapy,你可以自己去搭建一些爬蟲框架,你就基本具備爬蟲工程師的思維了。
四
學習數據庫基礎,應對大規模數據存儲
爬回來的數據量小的時候,你可以用文檔的形式來存儲,一旦數據量大了,這就有點行不通了。所以掌握一種數據庫是必須的,學習目前比較主流的 MongoDB 就OK。
MongoDB 可以方便你去存儲一些非結構化的數據,比如各種評論的文本,圖片的鏈接等等。你也可以利用PyMongo,更方便地在Python中操作MongoDB。
因為這裡要用到的數據庫知識其實非常簡單,主要是數據如何入庫、如何進行提取,在需要的時候再學習就行。
五
掌握各種技巧,應對特殊網站的反爬措施
當然,爬蟲過程中也會經歷一些絕望啊,比如被網站封IP、比如各種奇怪的驗證碼、userAgent訪問限制、各種動態加載等等。
遇到這些反爬蟲的手段,當然還需要一些高級的技巧來應對,常規的比如訪問頻率控制、使用代理IP池、抓包、驗證碼的OCR處理等等。
往往網站在高效開發和反爬蟲之間會偏向前者,這也為爬蟲提供了空間,掌握這些應對反爬蟲的技巧,絕大部分的網站已經難不到你了.
六
分佈式爬蟲,實現大規模並發採集
爬取基本數據已經不是問題了,你的瓶頸會集中到爬取海量數據的效率。這個時候,相信你會很自然地接觸到一個很厲害的名字:分佈式爬蟲。
分佈式這個東西,聽起來很恐怖,但其實就是利用多線程的原理讓多個爬蟲同時工作,需要你掌握 Scrapy + MongoDB + Redis 這三種工具。
Scrapy 前面我們說過了,用於做基本的頁面爬取,MongoDB 用於存儲爬取的數據,Redis 則用來存儲要爬取的網頁隊列,也就是任務隊列。
所以有些東西看起來很嚇人,但其實分解開來,也不過如此。當你能夠寫分佈式的爬蟲的時候,那麼你可以去嘗試打造一些基本的爬蟲架構了,實現一些更加自動化的數據獲取。
你看,這一條學習路徑下來,你已然可以成為老司機了,非常的順暢。所以在一開始的時候,盡量不要系統地去啃一些東西,找一個實際的項目(開始可以從豆瓣、小豬這種簡單的入手),直接開始就好。
因為爬蟲這種技術,既不需要你系統地精通一門語言,也不需要多麼高深的數據庫技術,高效的姿勢就是從實際的項目中去學習這些零散的知識點,你能保證每次學到的都是最需要的那部分。
當然唯一麻煩的是,在具體的問題中,如何找到具體需要的那部分學習資源、如何篩選和甄別,是很多初學者面臨的一個大問題。
希望我的回答對你有幫助,希望採納。
用python寫一個爬蟲有多難
簡單一個爬蟲,可以用urllib,requests,beautifulsoup可以實現。
比如爬百度首頁,
import requests
r = requests.get(“”)# 訪問百度主頁
r.encoding = ‘utf-8’ 更改編碼為utf-8
print (r.text[:1000]) # 打印網頁內容,這裡控制打印出來的字符數量,以免idle假死。
以上是簡單的爬蟲,難度往上就是,採集多頁內容,指定採集一些url結構的內容,登錄採集(直線——驗證碼,post get),採集javascript生成的內容,採集雪球網頁。等等。
驗證碼這部分,現在比較多的是極驗,也就是拉動拼圖到一定位置,然後放開鼠標,拼合拼圖的那種驗證碼。這種驗證碼目前也沒幾個人能破解。
python 爬蟲自學要多久
一周或者一個月。
如果完全靠自己自學,又是從零基礎開始學習Python的情況下,按照每個人的學習和理解能力的不同,我認為大致上需要半年到一年半左右的時間。
當然了,Python學習起來還是比較簡單的,如果有其他編程語言經驗,入門Python還是非常快的,花1-2個月左右的時間學完基礎,就可以自己編寫一些小的程序練練手了,5-6個月的時間就可以上手做項目了。
從一定程度上來說,一些零基礎的初學者想要利用兩個月的時間掌握好Python是不太可能的,學習完Python後想要應聘相對應的工作崗位,即便是選擇最快的學習方式也是很難實現的,無法快速實現就業。
如何使用 Python 抓取雪球網頁
Step.1 分析頁面
要抓一個網頁,首先自然是要「研究」這個網頁。通常我會用兩種方式:
一個是 Chrome 的 Developer Tools。通過它裏面的 Network 功能可以看到頁面發出的所有網絡請求,而大多數數據請求都會在 XHR 標籤下。點擊某一個請求,可以看到其具體信息,以及服務器的返回結果。很多網站在對於某些數據會有專門的請求接口,返回一組 json 或者 XML 格式的數據,供前台處理後顯示。
Step.2 獲取頁面
分析完畢,開抓。
直接 urllib.urlopen 向目標網頁發送請求,讀出網頁。結果,失敗了……
看了下返回結果:
403 Forbidden
You don’t have permission to access the URL on this server. Sorry for the inconvenience.
被拒了,所以這種赤裸裸地請求是不行的。沒關係,那就稍微包裝一下:
send_headers = {
‘User-Agent’:’Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36′,
‘Accept’:’text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8′,
‘Connection’:’keep-alive’,
‘Host’:’xueqiu.com’,
‘Cookie’:r’xxxxxx’,
}
req = urllib2.Request(url, headers=send_headers)
resp = urllib2.urlopen(req)
html = resp.read()
header 數據都可以從 Developer Tools 里拿到。這次順利抓到頁面內容。
一般網站或多或少都會對請求來源做一些阻攔,通過加 header 可以搞定大部分情況。
Step.3 提取數據
因為這個數據比較明顯,直接用通過一些字符串查找和截取操作就可以取出來。
pos_start = html.find(‘SNB.cubeInfo = ‘) + len(‘SNB.cubeInfo = ‘)
pos_end = html.find(‘SNB.cubePieData’)
data = html[pos_start:pos_end]
dic = json.loads(data)
dic 就是一個包含數據的字典對象。之後想幹什麼就隨便你了。
對於複雜一點的情況,可以通過 BeautifulSoup 來定位 html 標籤。再不好辦的,就用正則表達式,基本都可以解決掉。
Step.4 處理數據
因為我想對數據進行持久化存儲,並且做展示和分析,所以我用了 django 里的 ORM 來處理抓下來的數據。
# add Portfolio
portfolio, c = models.Portfolio.objects.get_or_create(code=dic[‘symbol’])
portfolio.name = dic[‘name’]
portfolio.earnings = dic[‘total_gain’]
portfolio.save()
# add Stock
stocks = dic[‘view_rebalancing’][‘holdings’]
for s in stocks:
stock, c = models.Stock.objects.get_or_create(code=s[‘stock_symbol’])
stock.name = s[‘stock_name’]
stock.count += 1
stock.weight += s[‘weight’]
stock.save()
Portfolio 記錄下組合及其收益,Stock則記錄每支股票的被收錄數和總收錄份額。
對於抓取到的,一般也可以存在文件中,或者直接通過 SQL 存入數據庫,視不同情況和個人喜好而定。
Step.5 批量抓取
前面的一套做下來,就完整地抓取了一組數據。要達到目的,還要設計一下批量抓取的程序。
一個要解決的問題就是如何獲得組合列表。這個可以再通過另一個抓取程序來實現。然後根據這些列表來循環抓取就可以了。
若要細究,還要考慮列表如何保存和使用,如何處理抓取失敗和重複抓取,如何控制抓取頻率防止被封,可否並行抓取等等。
Step.6 數據分析
數據有了,你要怎麼用它,這是個很大的問題。可以簡單的統計現象,也可以想辦法深入分析背後隱藏的邏輯。不多說,我也還只是在摸索之中。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/152239.html