python並行分布式框架的簡單介紹

本文目錄一覽：

1、python分布式框架有哪些
2、Python高性能分布式執行框架-Ray
3、一般Python的分布式計算用什麼框架
4、最高效的python爬蟲框架有幾個
5、Python的深度學習框架有哪些？
6、各位能不能給推薦一個python的分布式爬蟲框架

python分布式框架有哪些

Dask是Python的分布式計算框架，它支持分布式的DataFrame，也就是pandas的DataFrame，二者接口完美兼容，但Dask是分布式計算的框架，可以支持內存無法裝載的數據，進行計算，它也支持對一般的python程序進行分布式計算。是非常優秀的Python框架。本文主要介紹Dask的幾種不同的調度器的使用。

Dask支持多種調度器，從單線程、多線程、多進程到本地分布式和集群分布式，各種調度器在不同情況下有不同的作用，本文來源於Dask官方文檔的翻譯，主要向大家介紹這五種調度器的使用情景和方式。最後提供了如何在不同情境下設置Dask調度器的方法。

Python高性能分布式執行框架-Ray

這是別人說的，咱也不敢說，咱也不敢問 ! 了解大致的邏輯就好.你只需要知道他超級牛逼,超級方便

安裝就是簡單的 pip install ray , 需要提醒的就是ray現在只有linux編譯版本, windows就別想着用了,為了這,我硬生生把開發環境從windows切到了linux.

首先來看一下最簡單的Ray程序是如何編寫的。

在Ray里，通過Python註解@ray.remote定義remote函數。使用此註解聲明的函數都會自帶一個默認的方法remote，通過此方法發起的函數調用都是以提交分布式任務的方式異步執行的，函數的返回值是一個對象id，使用ray.get內置操作可以同步獲取該id對應的對象

參考:

高性能分布式執行框架——Ray

取代 Python 多進程！伯克利開源分布式框架 Ray

官方文檔

基於python的高性能實時並行機器學習框架之Ray介紹

一般Python的分布式計算用什麼框架

(1) 用什麼語言都不能證明逼格，包括彙編，也包括lisp/haskell。

(2) 在適當的場合用適當的工具，解除耦合、減少重複、易於擴展才是對逼格的更高挑戰。

比如有一組件對數據庫有大量操作，我同事認為他要用C++模板元編程加上一些巧妙的設計模式來生成sql是逼格高的體現，我認為在這樣的場景下至少要用上orm才能談得上對逼格有要求。

最高效的python爬蟲框架有幾個

1、Scrapy：Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。它是很強大的爬蟲框架，可以滿足簡單的頁面爬取，比如可以明確獲知url pattern的情況。用這個框架可以輕鬆爬下來如亞馬遜商品信息之類的數據。但是對於稍微複雜一點的頁面，如weibo的頁面信息，這個框架就滿足不了需求了。它的特性有：HTML, XML源數據選擇及提取的內置支持；提供了一系列在spider之間共享的可復用的過濾器(即 Item Loaders)，對智能處理爬取數據提供了內置支持。　

2、Crawley：高速爬取對應網站的內容，支持關係和非關係數據庫，數據可以導出為JSON、XML等。

3、Portia：是一個開源可視化爬蟲工具，可讓使用者在不需要任何編程知識的情況下爬取網站！簡單地注釋自己感興趣的頁面，Portia將創建一個蜘蛛來從類似的頁面提取數據。簡單來講，它是基於scrapy內核；可視化爬取內容，不需要任何開發專業知識；動態匹配相同模板的內容。

4、newspaper：可以用來提取新聞、文章和內容分析。使用多線程，支持10多種語言等。作者從requests庫的簡潔與強大得到靈感，使用Python開發的可用於提取文章內容的程序。支持10多種語言並且所有的都是unicode編碼。

5、Python-goose：Java寫的文章提取工具。Python-goose框架可提取的信息包括：文章主體內容、文章主要圖片、文章中嵌入的任何Youtube/Vimeo視頻、元描述、元標籤。

6、Beautiful Soup：名氣大，整合了一些常用爬蟲需求。它是一個可以從HTML或XML文件中提取數據的Python庫。它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間。Beautiful Soup的缺點是不能加載JS。

7、mechanize：它的優點是可以加載JS。當然它也有缺點，比如文檔嚴重缺失。不過通過官方的example以及人肉嘗試的方法，還是勉強能用的。

8、selenium：這是一個調用瀏覽器的driver，通過這個庫你可以直接調用瀏覽器完成某些操作，比如輸入驗證碼。Selenium是自動化測試工具，它支持各種瀏覽器，包括 Chrome，Safari，Firefox等主流界面式瀏覽器，如果在這些瀏覽器裡面安裝一個 Selenium 的插件，可以方便地實現Web界面的測試. Selenium支持瀏覽器驅動。Selenium支持多種語言開發，比如 Java，C，Ruby等等，PhantomJS 用來渲染解析JS，Selenium 用來驅動以及與Python的對接，Python進行後期的處理。

9、cola：是一個分布式的爬蟲框架，對於用戶來說，只需編寫幾個特定的函數，而無需關注分布式運行的細節。任務會自動分配到多台機器上，整個過程對用戶是透明的。項目整體設計有點糟，模塊間耦合度較高。

10、PySpider：一個國人編寫的強大的網絡爬蟲系統並帶有強大的WebUI。採用Python語言編寫，分布式架構，支持多種數據庫後端，強大的WebUI支持腳本編輯器，任務監視器，項目管理器以及結果查看器。Python腳本控制，可以用任何你喜歡的html解析包。

Python的深度學習框架有哪些？

中公教育聯合中科院專家打造的深度學習分八個階段進行學習：

第一階段AI概述及前沿應用成果介紹

深度學習的最新應用成果

單層/深度學習與機器學習

人工智能的關係及發展簡

第二階段神經網絡原理及TensorFlow實戰

梯度下降優化方法

前饋神經網絡的基本結構和訓練過程

反向傳播算法

TensorFlow開發環境安裝

“計算圖”編程模型

深度學習中圖像識別的操作原理

第三階段循環神經網絡原理及項目實戰

語言模型及詞嵌入

詞嵌入的學習過程

循環神經網絡的基本結構

時間序列反向傳播算法

長短時記憶網絡（LSTM）的基本結構

LSTM實現語言模型

第四階段生成式對抗網絡原理及項目實戰

生成式對抗網絡（GAN）的基本結構和原理

GAN的訓練過程

GAN用於圖片生成的實現

第五階段深度學習的分布式處理及項目實戰

多GPU並行實現

分布式並行的環境搭建

分布式並行實現

第六階段深度強化學習及項目實戰

強化學習介紹

智能體Agent的深度決策機制（上）

智能體Agent的深度決策機制（中）

智能體Agent的深度決策機制（下）

第七階段車牌識別項目實戰

數據集介紹及項目需求分析

OpenCV庫介紹及車牌定位

車牌定位

車牌識別

學員項目案例評講

第八階段深度學習前沿技術簡介

深度學習前沿技術簡介

元學習

遷移學習等

詳情查看深度學習。

各位能不能給推薦一個python的分布式爬蟲框架

爬蟲本質上不需要分布式。因為你要爬一個網站通常5-10個線程足夠了，再多就是對網站壓力測試了。

你只需要將任務分配到不同的機器上，然後各運行各自己的，結果合併一下就可以。這個與nutch人map, reduse也沒有什麼差別。只是手工分，手工合併。當然也可以用腳本分，腳本合併，腳本遠程啟動。有一個遠程控制模塊，似乎叫rpy。很簡單，很容易上手。可以遠程控制一個模塊。

數據庫用postgresql不是很好。因為爬行結果放在關係型數據庫里太吃力。特別是網頁內容。通常是URL放在redis里。內容放在文件系統里，你可以用hadoop+hdfs+thrift方案放在hadoop里。

如果使用了hadoop，就乾脆模仿nutch的流程，把python腳本也交給hadoop去管理好了。

至於控制與通信這個都讓hadoop來處理好了。

當然我個人覺着rpy方式更簡單。裡面控制與通信都是現成的。10分鐘就學會了。

還是回到原來的說法，大部分情況下，單機多線程跑爬蟲足夠用了。不需要分布式。而且效率甚至比分布式更高。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/193704.html