python練習中走過的坑記錄的簡單介紹

本文目錄一覽:

Python分布式進程中你會遇到的坑

寫在前面

小驚大怪

你是不是在用Python3或者在windows系統上編程?最重要的是你對進程和線程不是很清楚?那麼恭喜你,在python分布式進程中,會有坑等着你去挖。。。(hahahaha,此處允許我嚇唬一下你)開玩笑的啦,不過,如果你知道序列中不支持匿名函數,那這個坑就和你say byebye了。好了話不多數,直接進入正題。

分布式進程

正如大家所知道的Process比Thread更穩定,而且Process可以分布到多台機器上,而Thread最多只能分布到同一台機器的多個CPU上。Python的multiprocessing模塊不但支持多進程,其中managers子模塊還支持把多進程分布到多台機器上。一個服務進程可以作為調度者,將任務分布到其他多個進程中,依靠網絡通信。由於managers模塊封裝很好,不必了解網絡通信的細節,就可以很容易地編寫分布式多進程程序。

代碼記錄

舉個例子

如果我們已經有一個通過Queue通信的多進程程序在同一台機器上運行,現在,由於處理任務的進程任務繁重,希望把發送任務的進程和處理任務的進程分布到兩台機器上,這應該怎麼用分布式進程來實現呢?你已經知道了原有的Queue可以繼續使用,而且通過managers模塊把Queue通過網絡暴露出去,就可以讓其他機器的進程來訪問Queue了。好,那我們就這麼干!

寫個task_master.py

我們先看服務進程。服務進程負責啟動Queue,把Queue註冊到網絡上,然後往Queue裡面寫入任務。

請注意,當我們在一台機器上寫多進程程序時,創建的Queue可以直接拿來用,但是,在分布式多進程環境下,添加任務到Queue不可以直接對原始的task_queue進行操作,那樣就繞過了QueueManager的封裝,必須通過manager.get_task_queue()獲得的Queue接口添加。然後,在另一台機器上啟動任務進程(本機上啟動也可以)

寫個task_worker.py

任務進程要通過網絡連接到服務進程,所以要指定服務進程的IP。

運行結果

現在,可以試試分布式進程的工作效果了。先啟動task_master.py服務進程:

task_master.py進程發送完任務後,開始等待result隊列的結果。現在啟動task_worker.py進程:

看到沒,結果都出錯了,我們好好分析一下到底哪出錯了。。。

錯誤分析

在task_master.py的報錯提示中,我們知道它說lambda錯誤,這是因為序列化不支持匿名函數,所以我們得修改代碼,重新對queue用QueueManager進行封裝放到網絡中。

其中task_queue和result_queue是兩個隊列,分別存放任務和結果。它們用來進行進程間通信,交換對象。

因為是分布式的環境,放入queue中的數據需要等待Workers機器運算處理後再進行讀取,這樣就需要對queue用QueueManager進行封裝放到網絡中,這是通過上面的2行代碼來實現的。我們給return_task_queue的網絡調用接口取了一個名get_task_queue,而return_result_queue的名字是get_result_queue,方便區分對哪個queue進行操作。task.put(n)即是對task_queue進行寫入數據,相當於分配任務。而result.get()即是等待workers機器處理後返回的結果。

值得注意 在windows系統中你必須要寫IP地址,而其他操作系統比如linux操作系統則就不要了。

修改後的代碼

在task_master.py中修改如下:

在task_worker.py中修改如下:

先運行task_master.py,然後再運行task_worker.py

(1)task_master.py運行結果如下

(2)task_worker.py運行結果如下

知識補充

這個簡單的Master/Worker模型有什麼用?其實這就是一個簡單但真正的分布式計算,把代碼稍加改造,啟動多個worker,就可以把任務分布到幾台甚至幾十台機器上,比如把計算n*n的代碼換成發送郵件,就實現了郵件隊列的異步發送。

Queue對象存儲在哪?注意到task_worker.py中根本沒有創建Queue的代碼,所以,Queue對象存儲在task_master.py進程中:

而Queue之所以能通過網絡訪問,就是通過QueueManager實現的。由於QueueManager管理的不止一個Queue,所以,要給每個Queue的網絡調用接口起個名字,比如get_task_queue。task_worker這裡的QueueManager註冊的名字必須和task_manager中的一樣。對比上面的例子,可以看出Queue對象從另一個進程通過網絡傳遞了過來。只不過這裡的傳遞和網絡通信由QueueManager完成。

authkey有什麼用?這是為了保證兩台機器正常通信,不被其他機器惡意干擾。如果task_worker.py的authkey和task_master.py的authkey不一致,肯定連接不上。

python編程遇到的幾個坑

1. 爬個別特定網站,不一定得用python寫爬蟲,多數情況wget一條命令多數網站就能爬的不錯,真的玩到自己寫爬蟲了,最終遇到的無非是如何做大做壯,怎麼做分布式爬蟲。scrapy這種價值接近0,異步或者多線程搞抓取,選一個成熟的基於磁盤的隊列庫,kafka之類的,scrapy幫了啥?

2. http庫眾多,還有gevent庫monkey patch以後coroutine的玩這一選擇,規模千萬的話urllib3很好。

3. 對付網站的諸如登錄、ajax,這種不過是體力民工活,不展開了。

4. 速度很重要,放ec2或者國內的雲上跑,很重要的指標是你每一億網頁爬下來成本多少,爬的時候比如4核一個虛擬機節點,你能inbound貸款用足100mbps嗎。

5. beautifulsoup太慢,全網的爬,encoding的分析也要要快,c實現的chardet還行

最關鍵的,永遠是爬下來以後的信息的提取、分析、使用,就是另外一個話題了。

1.學會使用chrome瀏覽器查看通信以及查看元素格式

2.增加User-Agent, 這是最簡單的反爬措施了

3.寫爬蟲最好使用Ipython,在交互式的環境下,可以時刻了解自己問題具體出在哪裡

4.使用requests

5.用get或者post下好html之後,要確認你需要的東西html裡面有,而不是之後用ajax或者javascript加載的。

6.解析的話,BeautifulSoup不錯。對於少數非常特殊的,可以考慮用re。

7,需要大量採集數據的話,學會使用框架,比如scrapy。

進階:

加入網站需要模擬登陸,裡面使用了很多ajax或者javascript,或者反爬蟲厲害,用requests的session,注意F12查看到底發送了什麼數據。

實在不會,就使用模擬瀏覽器吧,推薦selenium,雖然速度慢點,內存多點,但是真的很省力,而且基本查不出來。

最後,爬蟲速度不要太快,加上time.sleep(1),盡量少用多線程,別人建站也不容易,(尤其是小站)你不給別人帶來很大的麻煩,別人也就睜一隻眼閉一隻眼了,否則封IP不是好玩的。

有些頁面喜歡使用redirect,然而requests的get和post方法中默認是直接跳轉的!很可能你就帶着錯誤的cookies和headers跳轉了,所以務必將allow_redirects參數設為false

windows環境的python踩坑記

雖然使用python有不少時間了,但是基本沒有在windows環境下使用,這不就踩了不少坑,特此記錄如下:

安裝完成後,發現沒有python命令,這個是環境變量的問題,添加就可以了。但是也找不到pip 命令,而進入python裡面,可以import pip 模塊。這時候,需要用 “python -m ensurepip ” 來生成pip命令了,生成之後添加到環境變量就可以直接使用了, 默認情況下pip的路徑: Python_install_path\scripts\pip.exe , 在較新的python版本裡面,已經默認會生成pip 命令,也就是說不需要上述步驟就有pip 命令可以使用了.需要注意的是:

如果遇到執行pip.exe 時候報錯: Fatal error in launcher: Unable to create process using ‘”‘ , 那麼可以嘗試用: python FULL/PATH/OF/PIP/COMMAND 來替帶直接運行 pip, 貌似是無法找到合適的解釋器來運行pip造成的.

如果發現系統中已經安裝了python,但是缺少需要的module, 需要自己安裝,可是不是管理員權限,沒辦法安裝,python 提供了解決辦法,方法如下:

A.

使用python -m site 命令,該命令會輸出python的sys.path變量的值,以及其他的變量,見如下內容,其中我們可以看到有兩個變量:USER_BASE, USER_SITE. 我們可以把需要的module 安裝到USER_SITE下.

如果不存在相應的路徑,那麼我們可以創建.

B.

有了上述的路徑後,我們在安裝3rd module 的時候,就可以指定安裝路徑了:

pip install MODULE_FILE.PY –target=ABOVE\USER_SITE\PATH

上述方式安裝之後,只有當前用戶可以使用這些新裝的module, 其他用戶是不可以的.

其實這個不能算windows平台的坑了,一般不能import 都是缺少依賴的問題。 那麼我們可以返回pip 命令,首先要知道這個module 的路徑,通過路徑中其他的信息確認這個module所屬的package.

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/291594.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-25 14:06
下一篇 2024-12-25 14:06

相關推薦

  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python計算陽曆日期對應周幾

    本文介紹如何通過Python計算任意陽曆日期對應周幾。 一、獲取日期 獲取日期可以通過Python內置的模塊datetime實現,示例代碼如下: from datetime imp…

    編程 2025-04-29
  • 如何查看Anaconda中Python路徑

    對Anaconda中Python路徑即conda環境的查看進行詳細的闡述。 一、使用命令行查看 1、在Windows系統中,可以使用命令提示符(cmd)或者Anaconda Pro…

    編程 2025-04-29
  • Python列表中負數的個數

    Python列表是一個有序的集合,可以存儲多個不同類型的元素。而負數是指小於0的整數。在Python列表中,我們想要找到負數的個數,可以通過以下幾個方面進行實現。 一、使用循環遍歷…

    編程 2025-04-29
  • Python周杰倫代碼用法介紹

    本文將從多個方面對Python周杰倫代碼進行詳細的闡述。 一、代碼介紹 from urllib.request import urlopen from bs4 import Bea…

    編程 2025-04-29
  • 蝴蝶優化算法Python版

    蝴蝶優化算法是一種基於仿生學的優化算法,模仿自然界中的蝴蝶進行搜索。它可以應用於多個領域的優化問題,包括數學優化、工程問題、機器學習等。本文將從多個方面對蝴蝶優化算法Python版…

    編程 2025-04-29
  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • python強行終止程序快捷鍵

    本文將從多個方面對python強行終止程序快捷鍵進行詳細闡述,並提供相應代碼示例。 一、Ctrl+C快捷鍵 Ctrl+C快捷鍵是在終端中經常用來強行終止運行的程序。當你在終端中運行…

    編程 2025-04-29
  • Python程序需要編譯才能執行

    Python 被廣泛應用於數據分析、人工智能、科學計算等領域,它的靈活性和簡單易學的性質使得越來越多的人喜歡使用 Python 進行編程。然而,在 Python 中程序執行的方式不…

    編程 2025-04-29
  • Python清華鏡像下載

    Python清華鏡像是一個高質量的Python開發資源鏡像站,提供了Python及其相關的開發工具、框架和文檔的下載服務。本文將從以下幾個方面對Python清華鏡像下載進行詳細的闡…

    編程 2025-04-29

發表回復

登錄後才能評論