本文目錄一覽:
- 1、python協程(4):asyncio
- 2、在Python中使用Asyncio系統(3-4)Task 和 Future
- 3、如何在scrapy框架下,用python實現爬蟲自動跳轉頁面來抓去網頁內容??
python協程(4):asyncio
asyncio是官方提供的協程的類庫,從python3.4開始支持該模塊
async awiat是python3.5中引入的關鍵字,使用async關鍵字可以將一個函數定義為協程函數,使用awiat關鍵字可以在遇到IO的時候掛起當前協程(也就是任務),去執行其他協程。
await + 可等待的對象(協程對象、Future對象、Task對象 – IO等待)
注意:在python3.4中是通過asyncio裝飾器定義協程,在python3.8中已經移除了asyncio裝飾器。
事件循環,可以把他當做是一個while循環,這個while循環在周期性的運行並執行一些協程(任務),在特定條件下終止循環。
loop = asyncio.get_event_loop():生成一個事件循環
loop.run_until_complete(任務):將任務放到事件循環
Tasks用於並發調度協程,通過asyncio.create_task(協程對象)的方式創建Task對象,這樣可以讓協程加入事件循環中等待被調度執行。除了使用 asyncio.create_task() 函數以外,還可以用低層級的 loop.create_task() 或 ensure_future() 函數。不建議手動實例化 Task 對象。
本質上是將協程對象封裝成task對象,並將協程立即加入事件循環,同時追蹤協程的狀態。
注意:asyncio.create_task() 函數在 Python 3.7 中被加入。在 Python 3.7 之前,可以改用 asyncio.ensure_future() 函數。
下面結合async awiat、事件循環和Task看一個示例
示例一:
*注意:python 3.7以後增加了asyncio.run(協程對象),效果等同於loop = asyncio.get_event_loop(),loop.run_until_complete(協程對象) *
示例二:
注意:asyncio.wait 源碼內部會對列表中的每個協程執行ensure_future從而封裝為Task對象,所以在和wait配合使用時task_list的值為[func(),func()] 也是可以的。
示例三:
在Python中使用Asyncio系統(3-4)Task 和 Future
Task 和 Future
前面我們討論了協程,以及如何在循環中運行它們才有用。現在我想簡單談談Task和Future api。你將使用最多的是Task,因為你的大部分工作將涉及使用create_task()函數運行協程,就像在第22頁的「快速開始」中設置的那樣。Future類實際上是Task的超類,它提供了與循環交互操作的所有功能。
可以這樣簡單地理解:Future表示某個活動的未來完成狀態,並由循環管理。Task是完全相同的,但是具體的「activity」是一個協程——可能是你用async def函數加上create_task()創建的協程。
Future類表示與循環交互的某個東西的狀態。這個描述太模糊了,不太有用,所以你可以將Future實例視為一個切換器,一個完成狀態的切換器。當創建Future實例時,切換設置為「尚未完成」狀態,但稍後它將是「完成」狀態。事實上,Future實例有一個名為done()的方法,它允許你檢查狀態,如示例 3-15所示。
示例 3-15. 用done()方法檢查完成狀態
Future實例還可以執行以下操作:
• 設置一個result值(用.set_result(value)設置值並且使用 .result()獲取值)
• 使用.cancel()方法取消 (並且會用使用.cancelled()檢查是否取消)
• 增加一個Future完成時回調的函數
即使Task更常見,也不可能完全避免使用Future:例如,在執行器上運行函數將返回Future實例,而不是Task。讓我們快速看一下 示例 3-16 ,了解一下直接使用Future實例是什麼感覺。
示例 3-16. 與Future實例的交互
(L3)創建一個簡單的 main函數。我們運行這個函數,等上一會兒然後在Future f上設置一個結果。
(L5)設置一個結果。
(L8)手動創建一個Future實例。注意,這個實例(默認情況下)綁定到我們的循環,但它沒有也不會被附加到任何協程(這就是Tasks的作用)。
(L9)在做任何事情之前,確認future還沒有完成。
(L11)安排main()協程,傳遞future。請記住,main()協程所做的所有工作就是sleep,然後切換Future實例。(注意main()協程還不會開始運行:協程只在事件循環運行時才開始運行。)
(L13)在這裡我們在Future實例上而不是Task實例上使用run_until_complete()。這和你以前見過的不一樣。現在循環正在運行,main()協程將開始執行.
(L16)最終,當future的結果被設置時,它就完成了。完成後,可以訪問結果。
當然,你不太可能以這裡所示的方式直接使用Future;代碼示例僅用於教育目的。你與asynccio的大部分聯繫都是通過Task實例進行的。
你可能想知道如果在Task實例上調用set_result()會發生什麼。在Python 3.8之前可以這樣做,但現在不允許這麼做了。任務實例是協程對象的包裝器,它們的結果值只能在內部設置為底層協程函數的結果,如 示例 3-17所示那樣。
示例 3-17. 在task上調用set_result
(L13)唯一的區別是我們創建的是Task實例而不是Future實例。當然,Task API要求我們提供一個協程;這裡我們使用sleep()只是因為簡單方便。
(L7)正在傳入一個Task實例。它滿足函數的類型簽名(因為Task是Future的子類),但從Python 3.8開始,我們不再允許在Task上調用set_result():嘗試這樣做將引發RuntimeError。這個想法是,一個Task代表一個正在運行的協程,所以結果應該總是來自於task自身。
(L10, L24)但是,我們仍然可以cancel()一個任務,它將在底層協程中引發CancelledError。
Create_task? Ensure_Future? 下定決心吧!
在第22頁的「快速入門」中,我說過運行協程的方法是使用asyncio.create_task()。在引入該函數之前,有必要獲取一個循環實例並使用loop.create_task()完成相同的任務。事實上,這也可以通過一個不同的模塊級函數來實現:asyncio.ensure_future()。一些開發人員推薦create_task(),而其他人推薦ensure_future()。
在我為這本書做研究的過程中,我確信API方法asyncio.ensure_future()是引起對asyncio庫廣泛誤解的罪魁禍首。API的大部分內容都非常清晰,但在學習過程中還存在一些嚴重的障礙,這就是其中之一。當你遇到ensure_future()時,你的大腦會非常努力地將其集成到關於asyncio應該如何使用的心理模型中——但很可能會失敗!
在Python 3.6 asyncio 文檔中,這個現在已經臭名昭著的解釋突出了 ensure_future() 的問題:
asyncio.ensure_future(coro_or_future, *, _loop =None)
安排執行一個協程對象:把它包裝在future中。返回一個Task對象。如果參數是Future,則直接返回。
什麼!? 當我第一次讀到這篇文章時,我很困惑。下面希望是對ensure_future()的更清楚的描述:
這個函數很好地說明了針對終端用戶開發人員的asyncio API(高級API)和針對框架設計人員的asyncio API(低級API)之間的區別。讓我們在示例 3-18中自習看看它是如何工作的。
示例 3-18. 仔細看看ensure_future()在做什麼
(L3)一個簡單的什麼都不做的協程函數。我們只需要一些能組成協程的東西。
(L6)我們通過直接調用該函數來創建協程對象。你的代碼很少會這樣做,但我想在這裡明確地表示,我們正在向每個create_task()和ensure_future()傳遞一個協程對象。
(L7)獲取一個循環。
(L9)首先,我們使用loop.create_task()在循環中調度協程,並返回一個新的Task實例。
(L10)驗證類型。到目前為止,沒有什麼有趣的。
(L12)我們展示了asyncio.ensure_future()可以被用來執行與create_task()相同的動作:我們傳入了一個協程,並返回了一個Task實例(並且協程已經被安排在循環中運行)!如果傳入的是協程,那麼loop.create_task()和asyncio.ensure_future()之間沒有區別。
(L15)如果我們給ensure_future()傳遞一個Task實例會發生什麼呢?注意我們要傳遞的Task實例是已經在第4步通過loop.create_task()創建好的。
(L16)返回的Task實例與傳入的Task實例完全相同:它在被傳遞時沒有被改變。
直接傳遞Future實例的意義何在?為什麼用同一個函數做兩件不同的事情?答案是,ensure_future()的目的是讓框架作者向最終用戶開發者提供可以處理兩種參數的API。不相信我?這是ex-BDFL自己說的:
ensure_future()的要點是,如果你有一個可能是協程或Future(後者包括一個Task,因為它是Future的子類)的東西,並且你想能夠調用一個只在Future上定義的方法(可能唯一有用的例子是cancel())。當它已經是Future(或Task)時,它什麼也不做;當它是協程時,它將它包裝在Task中。
如果您知道您有一個協程,並且希望它被調度,那麼正確的API是create_task()。唯一應該調用ensure_future()的時候是當你提供一個API(像大多數asyncio自己的API),它接受協程或Future,你需要對它做一些事情,需要你有一個Future。
—Guido van Rossum
總而言之,asyncio.sure_future()是一個為框架設計者準備的輔助函數。這一點最容易通過與一種更常見的函數進行類比來解釋,所以我們來做這個解釋。如果你有幾年的編程經驗,你可能已經見過類似於例3-19中的istify()函數的函數。示例 3-19中listify()的函數。
示例 3-19. 一個強制輸入列表的工具函數
這個函數試圖將參數轉換為一個列表,不管輸入的是什麼。api和框架中經常使用這類函數將輸入強制轉換為已知類型,這將簡化後續代碼——在本例中,您知道參數(來自listify()的輸出)將始終是一個列表。
如果我將listify()函數重命名為ensure_list(),那麼您應該開始看到與asyncio.ensure_future()的類似之處:它總是試圖將參數強制轉換為Future(或子類)類型。這是一個實用函數,它使框架開發人員(而不是像你我這樣的終端用戶開發人員)的工作變得更容易。
實際上,asyncio標準庫模塊本身使用ensure_future()正是出於這個原因。當你下次查看API時,你會發現函數參數被描述為「可等待對象」,很可能內部使用ensure_future()強制轉換參數。例如,asyncio.gather()函數就像下面的代碼一樣:
aws參數表示「可等待對象」,包括協程、task和future。在內部,gather()使用ensure_future()進行類型強制轉換:task和future保持不變,而把協程強制轉為task。
這裡的關鍵是,作為終端用戶應用程序開發人員,應該永遠不需要使用asyncio.ensure_future()。它更像是框架設計師的工具。如果你需要在事件循環上調度協程,只需直接使用asyncio.create_task()來完成。
在接下來的幾節中,我們將回到語言級別的特性,從非同步上下文管理器開始。
如何在scrapy框架下,用python實現爬蟲自動跳轉頁面來抓去網頁內容??
Scrapy是一個用Python寫的Crawler Framework,簡單輕巧,並且非常方便。Scrapy使用Twisted這個非同步網路庫來處理網路通信,架構清晰,並且包含了各種中間件介面,可以靈活地完成各種需求。Scrapy整體架構如下圖所示:
根據架構圖介紹一下Scrapy中的各大組件及其功能:
Scrapy引擎(Engine):負責控制數據流在系統的所有組建中流動,並在相應動作發生觸發事件。
調度器(Scheduler):從引擎接收Request並將它們入隊,以便之後引擎請求request時提供給引擎。
下載器(Downloader):負責獲取頁面數據並提供給引擎,而後提供給Spider。
Spider:Scrapy用戶編寫用於分析Response並提取Item(即獲取到的Item)或額外跟進的URL的類。每個Spider負責處理一個特定(或一些網站)。
Item Pipeline:負責處理被Spider提取出來的Item。典型的處理有清理驗證及持久化(例如存儲到資料庫中,這部分後面會介紹存儲到MySQL中,其他的資料庫類似)。
下載器中間件(Downloader middlewares):是在引擎即下載器之間的特定鉤子(special hook),處理Downloader傳遞給引擎的Response。其提供了一個簡便的機制,通過插入自定義代碼來擴展Scrapy功能(後面會介紹配置一些中間並激活,用以應對反爬蟲)。
Spider中間件(Spider middlewares):是在引擎及Spider之間的特定鉤子(special hook),處理Spider的輸入(response)和輸出(Items即Requests)。其提供了一個簡便的機制,通過插入自定義的代碼來擴展Scrapy功能。
原創文章,作者:ULBV,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/147436.html