本文目錄一覽:
- 1、如何使用python 抓取雪球網頁
- 2、如何使用 Python 抓取雪球網頁
- 3、Python爬蟲可以爬取什麼
- 4、python量化哪個平台可以回測模擬實盤還不要錢
- 5、類函數、成員函數、靜態函數、抽象函數、方法偽裝屬性
如何使用python 抓取雪球網頁
最簡單可以用urllib,python2.x和python3.x的用法不同,以python2.x為例:
import urllib
html = urllib.open(url)
text = html.read()
複雜些可以用requests庫,支持各種請求類型,支持cookies,header等
再複雜些的可以用selenium,支持抓取javascript產生的文本
如何使用 Python 抓取雪球網頁
#start coding
首先要知道自己在爬什麼~樓主說找到HTML的代碼云云,思路其實是錯誤的。因為我們想要的內容不在原始的html裡面。但是肯定在瀏覽器和服務器之間的通信里,我們只要找到這部分數據就好。
#我用的是Firefox的FireBug
選擇網絡(Chrome中應該是Network),點擊調倉歷史記錄
可以看到瀏覽器和服務器之間進行了一次通信。我們截獲了一個網址。打開看看。可以看到瀏覽器和服務器之間進行了一次通信。我們截獲了一個網址。打開看看。
看上去像是一堆亂碼,但是細心的話就會發現……
也就是說我們要的數據都在這裡了,所以只要先獲取這個頁面的內容然後在提取數據就好了~
#python3項目,python2中請使用urllib和urllib2
import urllib.request
url = ‘?cube_symbol=ZH010389count=20page=1’
req = urllib.request.Request(url,headers=headers)
html = urllib.request.urlopen(req).read().decode(‘utf-8’)
print(html)
運行一下~
報錯了~報錯沒關係,兵來將擋水來土掩~
403禁止訪問…應該是headers的問題…什麼是headers呢…403禁止訪問…應該是headers的問題…什麼是headers呢…
你現在用python去訪問網頁,網頁得到的請求就是你是python程序,但是網頁並不想讓程序看到自己,因為他是給人看的,資源都被程序佔了算什麼,所以我們要讓python偽裝成瀏覽器。
依然是用Firebug查看headers信息。
然後我們完善代碼在訪問過程中添加headers~然後我們完善代碼在訪問過程中添加headers~
import urllib.request
headers = {‘X-Requested-With’: ‘XMLHttpRequest’,
‘Referer’: ”,
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.2; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0’,
‘Host’: ‘xueqiu.com’,
#’Connection’:’keep-alive’,
#’Accept’:’*/*’,
‘cookie’:’s=iabht2os.1dgjn9z; xq_a_token=02a16c8dd2d87980d1b3ddced673bd6a74288bde; xq_r_token=024b1e233fea42dd2e0a74832bde2c914ed30e79; __utma=1.2130135756.1433017807.1433017807.1433017807.1;’
‘__utmc=1; __utmz=1.1433017807.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); Hm_lvt_1db88642e346389874251b5a1eded6e3=1433017809; Hm_lpvt_1db88642e346389874251b5a1eded6e3=1433017809’}
url = ‘?cube_symbol=ZH010389count=20page=1’
req = urllib.request.Request(url,headers=headers)
html = urllib.request.urlopen(req).read().decode(‘utf-8’)
print(html)
這次得到想要的結果了~
我們回過頭再去看headers會發現,其實有些我並沒有寫進去,你也可以自己嘗試把headers中的某一行注釋掉運行。但是每個站是不一樣的,你把所有的都填上去是一定能運行成功的,但是可能其中某一些不是必需的。
比如我們這裡只要有User-Agent(缺少報錯403)和cookie(缺少報錯400)。
好~我們現在拿到了想要的數據,但是看上去太複雜了,一點都不友好。現在我們來解析一下這個網頁。其實這個網頁是json格式的數據包。
然後我們來觀察這個數據的解析。然後我們來觀察這個數據的解析。
#你可以直接點擊Firebug中的JSON來看,也可以複製到Notepad++中使用json viewer插件查看。
大概是這個樣子的……大概是這個樣子的……
有了json的構成結構我們就可以來解析它了…
我直接拿Python Shell調試,一會兒完善代碼
沒什麼問題~一切看起來很完美的樣子~這一步其實沒什麼難度,只要你能看懂上一步里我們分析的json數據的組成結構,然後一層一層地向下解析數據就可以了。
完善代碼。
import urllib.request
import json
headers = {#’X-Requested-With’: ‘XMLHttpRequest’,
#’Referer’: ”,
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.2; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0’,
#’Host’: ‘xueqiu.com’,
#’Connection’:’keep-alive’,
#’Accept’:’*/*’,
‘cookie’:’s=iabht2os.1dgjn9z; xq_a_token=02a16c8dd2d87980d1b3ddced673bd6a74288bde; xq_r_token=024b1e233fea42dd2e0a74832bde2c914ed30e79; __utma=1.2130135756.1433017807.1433017807.1433017807.1;’
‘__utmc=1; __utmz=1.1433017807.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); Hm_lvt_1db88642e346389874251b5a1eded6e3=1433017809; Hm_lpvt_1db88642e346389874251b5a1eded6e3=1433017809’}
url = ‘?cube_symbol=ZH010389count=20page=1’
req = urllib.request.Request(url,headers=headers)
html = urllib.request.urlopen(req).read().decode(‘utf-8’)
#print(html)
data = json.loads(html)
print(‘股票名稱’,end=’:’)
print(data[‘list’][0][‘rebalancing_histories’][0][‘stock_name’],end=’ 持倉變化’)
print(data[‘list’][0][‘rebalancing_histories’][0][‘prev_weight’],end=’–‘)
print(data[‘list’][0][‘rebalancing_histories’][0][‘target_weight’])
print(‘股票名稱’,end=’:’)
print(data[‘list’][0][‘rebalancing_histories’][1][‘stock_name’],end=’ 持倉變化’)
print(data[‘list’][0][‘rebalancing_histories’][1][‘prev_weight’],end=’–‘)
print(data[‘list’][0][‘rebalancing_histories’][1][‘target_weight’])
運行程序~
好嘞!搞定收工!
當然也還不能收工……只是我不幹了而已……
To-dos:
可以看到程序是面向過程的…重複代碼很多,可以通過定義類或方法實現調用
大概……大概得寫點注釋……不過這麼簡單直接無腦面向過程的代碼真的需要注釋嗎
如果是想在他持倉變化時收到提醒,需要爬蟲定時爬取頁面數據與之前數據進行比較
如果你更細心的話會發現最初的json網址的構成是這樣的…cube_symbol=’#此處可添加任意組合的號碼例如ZH010389’count=‘#此處數字是一次獲取的交易變化數量,也就是說你一次性拿到了20次的交易,你點開之前交易記錄的時候並不會重新請求數據而是讀取了本地現有的數據此處數據可以任意修改哦~很神奇的試一試吧~20’page=‘和前面聯繫起來,前面是一次性獲取20條記錄,這邊便是頁碼,通過對page數的控制利用循環可以輸出所有交易過程,當然,40一頁和20兩頁的效果顯然是一樣的,看你怎麼玩兒了~1’
如果你有耐心看完上面那一大段話的話想必你可以有更多的想法。讓別人來指導我們的思路是好的,可是投資的機會稍瞬即逝,跟在別人後面是沒有前途的,我們要學習。大數據的時代為什麼不試試爬更多人的更多投資記錄呢?比如在雪球首頁爬取首頁推薦的組合,然後自動爬取這些組合所做的所有操作~這樣你是不是就有了很厚的一本交易目錄,結合過去的股市數據(這些能不能想辦法自動獲取呢?),你可以自己嘗試分析別人作出投資決定的原因(是不是可以把數據自動寫入一個excel?提示:xlwt3)…最終指導自己的投資。大數據學習,想想都炫酷。可惜我不炒股…
大概就醬紫~希望有幫助~
寫這麼多是因為我自己在學爬蟲…一周了…看到實踐的機會就來試一下…所以是邊調BUG邊寫答案~
大概就寫這麼多吧…後面的To-dos哪天我突然感興趣了會試着寫一下或者過來補充的…
看到這個答案的…前輩還希望多多指教;看到這個答案的新手…歡迎交流:P
Python爬蟲可以爬取什麼
Python爬蟲可以爬取的東西有很多,Python爬蟲怎麼學?簡單的分析下:
如果你仔細觀察,就不難發現,懂爬蟲、學習爬蟲的人越來越多,一方面,互聯網可以獲取的數據越來越多,另一方面,像 Python這樣的編程語言提供越來越多的優秀工具,讓爬蟲變得簡單、容易上手。
利用爬蟲我們可以獲取大量的價值數據,從而獲得感性認識中不能得到的信息,比如:
知乎:爬取優質答案,為你篩選出各話題下最優質的內容。
淘寶、京東:抓取商品、評論及銷量數據,對各種商品及用戶的消費場景進行分析。
安居客、鏈家:抓取房產買賣及租售信息,分析房價變化趨勢、做不同區域的房價分析。
拉勾網、智聯:爬取各類職位信息,分析各行業人才需求情況及薪資水平。
雪球網:抓取雪球高回報用戶的行為,對股票市場進行分析和預測。
爬蟲是入門Python最好的方式,沒有之一。Python有很多應用的方向,比如後台開發、web開發、科學計算等等,但爬蟲對於初學者而言更友好,原理簡單,幾行代碼就能實現基本的爬蟲,學習的過程更加平滑,你能體會更大的成就感。
掌握基本的爬蟲後,你再去學習Python數據分析、web開發甚至機器學習,都會更得心應手。因為這個過程中,Python基本語法、庫的使用,以及如何查找文檔你都非常熟悉了。
對於小白來說,爬蟲可能是一件非常複雜、技術門檻很高的事情。比如有人認為學爬蟲必須精通 Python,然後哼哧哼哧系統學習 Python 的每個知識點,很久之後發現仍然爬不了數據;有的人則認為先要掌握網頁的知識,遂開始 HTMLCSS,結果入了前端的坑,瘁……
但掌握正確的方法,在短時間內做到能夠爬取主流網站的數據,其實非常容易實現,但建議你從一開始就要有一個具體的目標。
在目標的驅動下,你的學習才會更加精準和高效。那些所有你認為必須的前置知識,都是可以在完成目標的過程中學到的。這裡給你一條平滑的、零基礎快速入門的學習路徑。
1.學習 Python 包並實現基本的爬蟲過程
2.了解非結構化數據的存儲
3.學習scrapy,搭建工程化爬蟲
4.學習數據庫知識,應對大規模數據存儲與提取
5.掌握各種技巧,應對特殊網站的反爬措施
6.分布式爬蟲,實現大規模並發採集,提升效率
一
學習 Python 包並實現基本的爬蟲過程
大部分爬蟲都是按“發送請求——獲得頁面——解析頁面——抽取並儲存內容”這樣的流程來進行,這其實也是模擬了我們使用瀏覽器獲取網頁信息的過程。
Python中爬蟲相關的包很多:urllib、requests、bs4、scrapy、pyspider 等,建議從requests+Xpath 開始,requests 負責連接網站,返回網頁,Xpath 用於解析網頁,便於抽取數據。
如果你用過 BeautifulSoup,會發現 Xpath 要省事不少,一層一層檢查元素代碼的工作,全都省略了。這樣下來基本套路都差不多,一般的靜態網站根本不在話下,豆瓣、糗事百科、騰訊新聞等基本上都可以上手了。
當然如果你需要爬取異步加載的網站,可以學習瀏覽器抓包分析真實請求或者學習Selenium來實現自動化,這樣,知乎、時光網、貓途鷹這些動態的網站也可以迎刃而解。
二
了解非結構化數據的存儲
爬回來的數據可以直接用文檔形式存在本地,也可以存入數據庫中。
開始數據量不大的時候,你可以直接通過 Python 的語法或 pandas 的方法將數據存為csv這樣的文件。
當然你可能發現爬回來的數據並不是乾淨的,可能會有缺失、錯誤等等,你還需要對數據進行清洗,可以學習 pandas 包的基本用法來做數據的預處理,得到更乾淨的數據。
三
學習 scrapy,搭建工程化的爬蟲
掌握前面的技術一般量級的數據和代碼基本沒有問題了,但是在遇到非常複雜的情況,可能仍然會力不從心,這個時候,強大的 scrapy 框架就非常有用了。
scrapy 是一個功能非常強大的爬蟲框架,它不僅能便捷地構建request,還有強大的 selector 能夠方便地解析 response,然而它最讓人驚喜的還是它超高的性能,讓你可以將爬蟲工程化、模塊化。
學會 scrapy,你可以自己去搭建一些爬蟲框架,你就基本具備爬蟲工程師的思維了。
四
學習數據庫基礎,應對大規模數據存儲
爬回來的數據量小的時候,你可以用文檔的形式來存儲,一旦數據量大了,這就有點行不通了。所以掌握一種數據庫是必須的,學習目前比較主流的 MongoDB 就OK。
MongoDB 可以方便你去存儲一些非結構化的數據,比如各種評論的文本,圖片的鏈接等等。你也可以利用PyMongo,更方便地在Python中操作MongoDB。
因為這裡要用到的數據庫知識其實非常簡單,主要是數據如何入庫、如何進行提取,在需要的時候再學習就行。
五
掌握各種技巧,應對特殊網站的反爬措施
當然,爬蟲過程中也會經歷一些絕望啊,比如被網站封IP、比如各種奇怪的驗證碼、userAgent訪問限制、各種動態加載等等。
遇到這些反爬蟲的手段,當然還需要一些高級的技巧來應對,常規的比如訪問頻率控制、使用代理IP池、抓包、驗證碼的OCR處理等等。
往往網站在高效開發和反爬蟲之間會偏向前者,這也為爬蟲提供了空間,掌握這些應對反爬蟲的技巧,絕大部分的網站已經難不到你了.
六
分布式爬蟲,實現大規模並發採集
爬取基本數據已經不是問題了,你的瓶頸會集中到爬取海量數據的效率。這個時候,相信你會很自然地接觸到一個很厲害的名字:分布式爬蟲。
分布式這個東西,聽起來很恐怖,但其實就是利用多線程的原理讓多個爬蟲同時工作,需要你掌握 Scrapy + MongoDB + Redis 這三種工具。
Scrapy 前面我們說過了,用於做基本的頁面爬取,MongoDB 用於存儲爬取的數據,Redis 則用來存儲要爬取的網頁隊列,也就是任務隊列。
所以有些東西看起來很嚇人,但其實分解開來,也不過如此。當你能夠寫分布式的爬蟲的時候,那麼你可以去嘗試打造一些基本的爬蟲架構了,實現一些更加自動化的數據獲取。
你看,這一條學習路徑下來,你已然可以成為老司機了,非常的順暢。所以在一開始的時候,盡量不要系統地去啃一些東西,找一個實際的項目(開始可以從豆瓣、小豬這種簡單的入手),直接開始就好。
因為爬蟲這種技術,既不需要你系統地精通一門語言,也不需要多麼高深的數據庫技術,高效的姿勢就是從實際的項目中去學習這些零散的知識點,你能保證每次學到的都是最需要的那部分。
當然唯一麻煩的是,在具體的問題中,如何找到具體需要的那部分學習資源、如何篩選和甄別,是很多初學者面臨的一個大問題。
以上就是我的回答,希望對你有所幫助,望採納。
python量化哪個平台可以回測模擬實盤還不要錢
Python量化投資框架:回測+模擬+實盤
Python量化投資 模擬交易 平台 1. 股票量化投資框架體系 1.1 回測 實盤交易前,必須對量化交易策略進行回測和模擬,以確定策略是否有效,並進行改進和優化。作為一般人而言,你能想到的,一般都有人做過了。回測框架也如此。當前小白看到的主要有如下五個回測框架: Zipline :事件驅動框架,國外很流行。缺陷是不適合國內市場。 PyAlgoTrade : 事件驅動框架,最新更新日期為16年8月17號。支持國內市場,應用python 2.7開發,最大的bug在於不支持3.5的版本,以及不支持強大的pandas。 pybacktest :以處理向量數據的方式進行回測,最新更新日期為2個月前,更新不穩定。 TradingWithPython:基於pybacktest,進行重構。參考資料較少。 ultra-finance:在github的項目兩年前就停止更新了,最新的項目在谷歌平台,無奈打不開網址,感興趣的話,請自行查看吧。 RQAlpha:事件驅動框架,適合A股市場,自帶日線數據。是米筐的回測開源框架,相對而言,個人更喜歡這個平台。 2 模擬 模擬交易,同樣是實盤交易前的重要一步。以防止類似於當前某券商的事件,半小時之內虧損上億,對整個股市都產生了惡劣影響。模擬交易,重點考慮的是程序的交易邏輯是否可靠無誤,數據傳輸的各種情況是否都考慮到。 當下,個人看到的,喜歡用的開源平台是雪球模擬交易,其次是wind提供的模擬交易接口。像優礦、米筐和聚寬提供的,由於只能在線上平台測試,不甚自由,並無太多感覺。 雪球模擬交易:在後續實盤交易模塊,再進行重點介紹,主要應用的是一個開源的easytrader系列。 Wind模擬交易:若沒有機構版的話,可以考慮應用學生免費版。具體模擬交易接口可參看如下鏈接: 3 實盤 實盤,無疑是我們的終極目標。股票程序化交易,已經被限制。但對於萬能的我們而言,總有解決的辦法。當下最多的是破解券商網頁版的交易接口,或者說應用爬蟲爬去操作。對我而言,比較傾向於食燈鬼的easytrader系列的開源平台。對於機構用戶而言,由於資金量較大,出於安全性和可靠性的考慮,並不建議應用。 easytrader系列當前主要有三個組成部分: easytrader:提供券商華泰/傭金寶/銀河/廣發/雪球的基金、股票自動程序化交易,量化交易組件 easyquotation : 實時獲取新浪 / Leverfun 的免費股票以及 level2 十檔行情 / 集思路的分級基金行情 easyhistory : 用於獲取維護股票的歷史數據 easyquant : 股票量化框架,支持行情獲取以及交易 2. 期貨量化投資框架體系 一直待在私募或者券商,做的是股票相關的內容,對期貨這塊不甚熟悉。就根據自己所了解的,簡單總結一下。 2.1 回測 回測,貌似並沒有非常流行的開源框架。可能的原因有二:期貨相對股票而言,門檻較高,更多是機構交易,開源較少; 去年至今對期貨監管控制比較嚴,至今未放開,只能做些CTA的策略,另許多人興緻泱泱吧。 就個人理解而言,可能wind的是一個相對合適的選擇。 2.2 模擬 + 實盤 vn.py是國內最為流行的一個開源平台。起源於國內私募的自主交易系統,2015年初啟動時只是單純的交易API接口的Python封裝。隨着業內關注度的上升和社區不斷的貢獻,目前已經一步步成長為一套全面的交易程序開發框架。如官網所說,該框架側重的是交易模塊,回測模塊並未支持。 能力有限,如果對相關框架感興趣的話,就詳看相關的鏈接吧。個人期望的是以RQAlpha為主搭建回測框架,以雪球或wind為主搭建模擬框架,用easy系列進行交易。
類函數、成員函數、靜態函數、抽象函數、方法偽裝屬性
本篇博客是滾雪球學 Python 第二輪的最後一篇博客,我們將內容繼續提升到面向對象部分,為你補充類裡面的一些裝飾器,學習之後,希望你的 Python 基礎知識可以更上一層樓。
先直接看代碼,再對代碼內容進行分析與學習。
首先要掌握的是類函數的定義格式,在普通函數的前面添加裝飾器 @classmethod ,該函數就會轉換為類函數,同時函數的第一個參數默認是 cls ,該變量名可以任意,建議使用成 cls ,這個是程序員之間的約定。
在 Python 中,大部分 @classmethod 裝飾的函數末尾都是 return cls(XXX) , return XXX.__new__ () 也就是 @classmethod 的一個主要用途是作為構造函數。
先掌握一個概念,靜態函數不屬於它所在的那個類,它是獨立於類的一個單獨函數,只是寄存在一個類名下,先建立這個基本概念,後面學起來就簡單很多了。
在同一個類中,調用靜態方法,使用 類名.函數名() 的格式。
先創建一個父類,其中包含兩個靜態函數與一個類函數。
再編寫一個 S 類繼承自 F 類:
測試之後,基本結論如下:
如果在子類中覆蓋了父類的靜態函數,那調用時使用的是子類自己的靜態函數,
如果在子類中沒有覆蓋父類的靜態函數,那調用時使用的是父類的靜態函數,
類函數同樣遵循該規則。
如果希望在子類中調用父類的屬性或者函數,請使用 父類名. 的形式實現。
被 @abstractmethod 裝飾的函數為抽象函數,含抽象函數的類不能實例化,繼承了含抽象函數的子類必須覆蓋所有抽象函數裝飾的方法,未被裝飾的可以不重寫。
抽象類是一個特殊的類,它的特殊之處在於只能被繼承,不能被實例化,實現代碼如下:
抽象基類中學習還需要了解元類相關知識,在第三輪滾雪球學 Python 中將為你展開這部分內容。
在 Python 面向對象的編碼過程中, 對象.屬性 來獲取屬性的值,使用 對象.方法() 來調用方法,通過裝飾器 @property 可以將一個方法偽裝成屬性,從而使用 對象.方法 沒有括號的形式調用。代碼非常簡單:
這種寫法最直接的應用,就是將部分屬性變成只讀屬性,例如,上述代碼,你無法通過下述代碼對 name 進行修改。
如果希望方法偽裝的屬性具備修改和刪除功能,需要參考下述代碼:
上述代碼在將 name 方法偽裝成屬性之後,可以通過 @name.setter 和 @name.deleter 對同名的 name 方法進行裝飾,從而實現了修改與刪除功能。
所以一般使用方法偽裝屬性的步驟是:
如果你覺得這個比較麻煩,還存在一種方法偽裝屬性的方式。使用 property 函數,原型如下
通過上述函數將方法偽裝成屬性的代碼為:
滾雪球學 Python 第二輪 15 篇博客在一次結束了,下一輪將在 4 月中旬再次開啟,學 Python 我們一直在路上,希望本系列的課程對你的 Python 學習有所助力。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/190095.html