python爬蟲雪球練習,python 雪球

本文目錄一覽：

1、如何使用python 抓取雪球網頁
2、零基礎小白如何在最短的時間快速入門python爬蟲
3、用python寫一個爬蟲有多難
4、python 爬蟲自學要多久
5、如何使用 Python 抓取雪球網頁

如何使用python 抓取雪球網頁

需要兩個模塊配合:

爬蟲模塊：單純負責抓取和存儲數據

數據處理模塊：處理爬蟲存儲的數據。如發現某個人某個持倉數據發生了變化，向你發出通知

該爬蟲的簡單的流程:

定時訪問目標頁面

抓取當前目標頁面的數據，存入數據庫

數據處理模塊簡單的流程：

定時訪問數據庫

數據庫中的數據滿足某個條件時執行自己設定的動作

零基礎小白如何在最短的時間快速入門python爬蟲

Python爬蟲為什麼受歡迎？Python爬蟲應該怎麼學？

如果你仔細觀察，就不難發現，懂爬蟲、學習爬蟲的人越來越多，一方面，互聯網可以獲取的數據越來越多，另一方面，像 Python這樣的編程語言提供越來越多的優秀工具，讓爬蟲變得簡單、容易上手。

利用爬蟲我們可以獲取大量的價值數據，從而獲得感性認識中不能得到的信息，比如：

知乎：爬取優質答案，為你篩選出各話題下最優質的內容。

淘寶、京東：抓取商品、評論及銷量數據，對各種商品及用戶的消費場景進行分析。

安居客、鏈家：抓取房產買賣及租售信息，分析房價變化趨勢、做不同區域的房價分析。

拉勾網、智聯：爬取各類職位信息，分析各行業人才需求情況及薪資水平。

雪球網：抓取雪球高回報用戶的行為，對股票市場進行分析和預測。

爬蟲是入門Python最好的方式，沒有之一。Python有很多應用的方向，比如後台開發、web開發、科學計算等等，但爬蟲對於初學者而言更友好，原理簡單，幾行代碼就能實現基本的爬蟲，學習的過程更加平滑，你能體會更大的成就感。

掌握基本的爬蟲後，你再去學習Python數據分析、web開發甚至機器學習，都會更得心應手。因為這個過程中，Python基本語法、庫的使用，以及如何查找文檔你都非常熟悉了。

對於小白來說，爬蟲可能是一件非常複雜、技術門檻很高的事情。比如有人認為學爬蟲必須精通 Python，然後哼哧哼哧系統學習 Python 的每個知識點，很久之後發現仍然爬不了數據；有的人則認為先要掌握網頁的知識，遂開始 HTMLCSS，結果入了前端的坑，瘁……

但掌握正確的方法，在短時間內做到能夠爬取主流網站的數據，其實非常容易實現，但建議你從一開始就要有一個具體的目標。

在目標的驅動下，你的學習才會更加精準和高效。那些所有你認為必須的前置知識，都是可以在完成目標的過程中學到的。這裡給你一條平滑的、零基礎快速入門的學習路徑。

1.學習 Python 包並實現基本的爬蟲過程

2.了解非結構化數據的存儲

3.學習scrapy，搭建工程化爬蟲

4.學習數據庫知識，應對大規模數據存儲與提取

5.掌握各種技巧，應對特殊網站的反爬措施

6.分佈式爬蟲，實現大規模並發採集，提升效率

一

學習 Python 包並實現基本的爬蟲過程

大部分爬蟲都是按「發送請求——獲得頁面——解析頁面——抽取並儲存內容」這樣的流程來進行，這其實也是模擬了我們使用瀏覽器獲取網頁信息的過程。

Python中爬蟲相關的包很多：urllib、requests、bs4、scrapy、pyspider 等，建議從requests+Xpath 開始，requests 負責連接網站，返回網頁，Xpath 用於解析網頁，便於抽取數據。

如果你用過 BeautifulSoup，會發現 Xpath 要省事不少，一層一層檢查元素代碼的工作，全都省略了。這樣下來基本套路都差不多，一般的靜態網站根本不在話下，豆瓣、糗事百科、騰訊新聞等基本上都可以上手了。

當然如果你需要爬取異步加載的網站，可以學習瀏覽器抓包分析真實請求或者學習Selenium來實現自動化，這樣，知乎、時光網、貓途鷹這些動態的網站也可以迎刃而解。

二

了解非結構化數據的存儲

爬回來的數據可以直接用文檔形式存在本地，也可以存入數據庫中。

開始數據量不大的時候，你可以直接通過 Python 的語法或 pandas 的方法將數據存為csv這樣的文件。

當然你可能發現爬回來的數據並不是乾淨的，可能會有缺失、錯誤等等，你還需要對數據進行清洗，可以學習 pandas 包的基本用法來做數據的預處理，得到更乾淨的數據。

三

學習 scrapy，搭建工程化的爬蟲

掌握前面的技術一般量級的數據和代碼基本沒有問題了，但是在遇到非常複雜的情況，可能仍然會力不從心，這個時候，強大的 scrapy 框架就非常有用了。

scrapy 是一個功能非常強大的爬蟲框架，它不僅能便捷地構建request，還有強大的 selector 能夠方便地解析 response，然而它最讓人驚喜的還是它超高的性能，讓你可以將爬蟲工程化、模塊化。

學會 scrapy，你可以自己去搭建一些爬蟲框架，你就基本具備爬蟲工程師的思維了。

四

學習數據庫基礎，應對大規模數據存儲

爬回來的數據量小的時候，你可以用文檔的形式來存儲，一旦數據量大了，這就有點行不通了。所以掌握一種數據庫是必須的，學習目前比較主流的 MongoDB 就OK。

MongoDB 可以方便你去存儲一些非結構化的數據，比如各種評論的文本，圖片的鏈接等等。你也可以利用PyMongo，更方便地在Python中操作MongoDB。

因為這裡要用到的數據庫知識其實非常簡單，主要是數據如何入庫、如何進行提取，在需要的時候再學習就行。

五

掌握各種技巧，應對特殊網站的反爬措施

當然，爬蟲過程中也會經歷一些絕望啊，比如被網站封IP、比如各種奇怪的驗證碼、userAgent訪問限制、各種動態加載等等。

遇到這些反爬蟲的手段，當然還需要一些高級的技巧來應對，常規的比如訪問頻率控制、使用代理IP池、抓包、驗證碼的OCR處理等等。

往往網站在高效開發和反爬蟲之間會偏向前者，這也為爬蟲提供了空間，掌握這些應對反爬蟲的技巧，絕大部分的網站已經難不到你了.

六

分佈式爬蟲，實現大規模並發採集

爬取基本數據已經不是問題了，你的瓶頸會集中到爬取海量數據的效率。這個時候，相信你會很自然地接觸到一個很厲害的名字：分佈式爬蟲。

分佈式這個東西，聽起來很恐怖，但其實就是利用多線程的原理讓多個爬蟲同時工作，需要你掌握 Scrapy + MongoDB + Redis 這三種工具。

Scrapy 前面我們說過了，用於做基本的頁面爬取，MongoDB 用於存儲爬取的數據，Redis 則用來存儲要爬取的網頁隊列，也就是任務隊列。

所以有些東西看起來很嚇人，但其實分解開來，也不過如此。當你能夠寫分佈式的爬蟲的時候，那麼你可以去嘗試打造一些基本的爬蟲架構了，實現一些更加自動化的數據獲取。

你看，這一條學習路徑下來，你已然可以成為老司機了，非常的順暢。所以在一開始的時候，盡量不要系統地去啃一些東西，找一個實際的項目（開始可以從豆瓣、小豬這種簡單的入手），直接開始就好。

因為爬蟲這種技術，既不需要你系統地精通一門語言，也不需要多麼高深的數據庫技術，高效的姿勢就是從實際的項目中去學習這些零散的知識點，你能保證每次學到的都是最需要的那部分。

當然唯一麻煩的是，在具體的問題中，如何找到具體需要的那部分學習資源、如何篩選和甄別，是很多初學者面臨的一個大問題。

希望我的回答對你有幫助，希望採納。

用python寫一個爬蟲有多難

簡單一個爬蟲，可以用urllib，requests，beautifulsoup可以實現。

比如爬百度首頁，

import requests

r = requests.get(“”)# 訪問百度主頁

r.encoding = ‘utf-8’ 更改編碼為utf-8

print （r.text[:1000]） # 打印網頁內容，這裡控制打印出來的字符數量，以免idle假死。

以上是簡單的爬蟲，難度往上就是，採集多頁內容，指定採集一些url結構的內容，登錄採集（直線——驗證碼，post get），採集javascript生成的內容，採集雪球網頁。等等。

驗證碼這部分，現在比較多的是極驗，也就是拉動拼圖到一定位置，然後放開鼠標，拼合拼圖的那種驗證碼。這種驗證碼目前也沒幾個人能破解。

python 爬蟲自學要多久

一周或者一個月。

如果完全靠自己自學，又是從零基礎開始學習Python的情況下，按照每個人的學習和理解能力的不同，我認為大致上需要半年到一年半左右的時間。

當然了，Python學習起來還是比較簡單的，如果有其他編程語言經驗，入門Python還是非常快的，花1-2個月左右的時間學完基礎，就可以自己編寫一些小的程序練練手了，5-6個月的時間就可以上手做項目了。

從一定程度上來說，一些零基礎的初學者想要利用兩個月的時間掌握好Python是不太可能的，學習完Python後想要應聘相對應的工作崗位，即便是選擇最快的學習方式也是很難實現的，無法快速實現就業。

如何使用 Python 抓取雪球網頁

Step.1 分析頁面

要抓一個網頁，首先自然是要「研究」這個網頁。通常我會用兩種方式：

一個是 Chrome 的 Developer Tools。通過它裏面的 Network 功能可以看到頁面發出的所有網絡請求，而大多數數據請求都會在 XHR 標籤下。點擊某一個請求，可以看到其具體信息，以及服務器的返回結果。很多網站在對於某些數據會有專門的請求接口，返回一組 json 或者 XML 格式的數據，供前台處理後顯示。

Step.2 獲取頁面

分析完畢，開抓。

直接 urllib.urlopen 向目標網頁發送請求，讀出網頁。結果，失敗了……

看了下返回結果：

403 Forbidden

You don’t have permission to access the URL on this server. Sorry for the inconvenience.

被拒了，所以這種赤裸裸地請求是不行的。沒關係，那就稍微包裝一下：

send_headers = {

‘User-Agent’:’Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36′,

‘Accept’:’text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8′,

‘Connection’:’keep-alive’,

‘Host’:’xueqiu.com’,

‘Cookie’:r’xxxxxx’,

}

req = urllib2.Request(url, headers=send_headers)

resp = urllib2.urlopen(req)

html = resp.read()

header 數據都可以從 Developer Tools 里拿到。這次順利抓到頁面內容。

一般網站或多或少都會對請求來源做一些阻攔，通過加 header 可以搞定大部分情況。

Step.3 提取數據

因為這個數據比較明顯，直接用通過一些字符串查找和截取操作就可以取出來。

pos_start = html.find(‘SNB.cubeInfo = ‘) + len(‘SNB.cubeInfo = ‘)

pos_end = html.find(‘SNB.cubePieData’)

data = html[pos_start:pos_end]

dic = json.loads(data)

dic 就是一個包含數據的字典對象。之後想幹什麼就隨便你了。

對於複雜一點的情況，可以通過 BeautifulSoup 來定位 html 標籤。再不好辦的，就用正則表達式，基本都可以解決掉。

Step.4 處理數據

因為我想對數據進行持久化存儲，並且做展示和分析，所以我用了 django 里的 ORM 來處理抓下來的數據。

# add Portfolio

portfolio, c = models.Portfolio.objects.get_or_create(code=dic[‘symbol’])

portfolio.name = dic[‘name’]

portfolio.earnings = dic[‘total_gain’]

portfolio.save()

# add Stock

stocks = dic[‘view_rebalancing’][‘holdings’]

for s in stocks:

stock, c = models.Stock.objects.get_or_create(code=s[‘stock_symbol’])

stock.name = s[‘stock_name’]

stock.count += 1

stock.weight += s[‘weight’]

stock.save()

Portfolio 記錄下組合及其收益，Stock則記錄每支股票的被收錄數和總收錄份額。

對於抓取到的，一般也可以存在文件中，或者直接通過 SQL 存入數據庫，視不同情況和個人喜好而定。

Step.5 批量抓取

前面的一套做下來，就完整地抓取了一組數據。要達到目的，還要設計一下批量抓取的程序。

一個要解決的問題就是如何獲得組合列表。這個可以再通過另一個抓取程序來實現。然後根據這些列表來循環抓取就可以了。

若要細究，還要考慮列表如何保存和使用，如何處理抓取失敗和重複抓取，如何控制抓取頻率防止被封，可否並行抓取等等。

Step.6 數據分析

數據有了，你要怎麼用它，這是個很大的問題。可以簡單的統計現象，也可以想辦法深入分析背後隱藏的邏輯。不多說，我也還只是在摸索之中。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hk/n/152239.html