本文目錄一覽:
python編程遇到的幾個坑
1. 爬個別特定網站,不一定得用python寫爬蟲,多數情況wget一條命令多數網站就能爬的不錯,真的玩到自己寫爬蟲了,最終遇到的無非是如何做大做壯,怎麼做分散式爬蟲。scrapy這種價值接近0,非同步或者多線程搞抓取,選一個成熟的基於磁碟的隊列庫,kafka之類的,scrapy幫了啥?
2. http庫眾多,還有gevent庫monkey patch以後coroutine的玩這一選擇,規模千萬的話urllib3很好。
3. 對付網站的諸如登錄、ajax,這種不過是體力民工活,不展開了。
4. 速度很重要,放ec2或者國內的雲上跑,很重要的指標是你每一億網頁爬下來成本多少,爬的時候比如4核一個虛擬機節點,你能inbound貸款用足100mbps嗎。
5. beautifulsoup太慢,全網的爬,encoding的分析也要要快,c實現的chardet還行
最關鍵的,永遠是爬下來以後的信息的提取、分析、使用,就是另外一個話題了。
1.學會使用chrome瀏覽器查看通信以及查看元素格式
2.增加User-Agent, 這是最簡單的反爬措施了
3.寫爬蟲最好使用Ipython,在互動式的環境下,可以時刻了解自己問題具體出在哪裡
4.使用requests
5.用get或者post下好html之後,要確認你需要的東西html裡面有,而不是之後用ajax或者javascript載入的。
6.解析的話,BeautifulSoup不錯。對於少數非常特殊的,可以考慮用re。
7,需要大量採集數據的話,學會使用框架,比如scrapy。
進階:
加入網站需要模擬登陸,裡面使用了很多ajax或者javascript,或者反爬蟲厲害,用requests的session,注意F12查看到底發送了什麼數據。
實在不會,就使用模擬瀏覽器吧,推薦selenium,雖然速度慢點,內存多點,但是真的很省力,而且基本查不出來。
最後,爬蟲速度不要太快,加上time.sleep(1),盡量少用多線程,別人建站也不容易,(尤其是小站)你不給別人帶來很大的麻煩,別人也就睜一隻眼閉一隻眼了,否則封IP不是好玩的。
有些頁面喜歡使用redirect,然而requests的get和post方法中默認是直接跳轉的!很可能你就帶著錯誤的cookies和headers跳轉了,所以務必將allow_redirects參數設為false
初學者如何學習python?
Python相對比較簡單,零基礎也能學,但新手不建議自學。
python是一門語法優美的編程語言,不僅可以作為小工具使用提升我們日常工作效率,也可以單獨作為一項高新就業技能!所以學完Python編程之後,只要真的掌握了相關技術,想要找到好的工作還是比較容易的。
建議大家可以從以下三方面來入手:
①先自學一些python書籍
大家可以從書中了解一些基礎知識,建立一些編程認知。
但是這樣的方式,還是難免會因為沒什麼基礎很快就覺得枯燥了,所以在書籍方面還是建議大家結合視頻課程一起來學習,才能更高效一點。
②網上找相關課程
在mooc網學習的是北京理工大學的一門python公開課,整個流程學習下來能夠了解一些基礎相關,但課程比較淺顯,還是感覺有些不系統,也很難靠自學迅速入門。
③報班學習
很多人對網上報班有些排斥,因為難免會覺得會被割韭菜。但是對於零基礎的小白學習python編程而言,跟著專業系統化一點的團隊一起學習,勢必會更省時省力一點的。
畢竟我們沒有基礎,靠自學又沒啥時間去堅持,能有合適的【線上陪伴式】的課程,還是挺值得一試的。建議大家可以先從體驗課開始,了解清楚課程含金量,看看往期學員的體驗回饋後再報班學習。
Python的學習學習順序如下:
①Python軟體開發基礎
②Python軟體開發進階
③Python全棧式WEB工程師
④Python多領域開發
互聯網行業目前還是最熱門的行業之一,學習IT技能之後足夠優秀是有機會進入騰訊、阿里、網易等互聯網大廠高薪就業的,發展前景非常好,普通人也可以學習。
想要系統學習,你可以考察對比一下開設有相關專業的熱門學校,好的學校擁有根據當下企業需求自主研發課程的能力,能夠在校期間取得大專或本科學歷,中博軟體學院、南京課工場、南京北大青鳥等開設相關專業的學校都是不錯的,建議實地考察對比一下。
祝你學有所成,望採納。
學習python遇到的問題
教材裡面是指在命令行里輸入命令運行
linux裡面(bash)執行python程序方法是
$python xxx.py
註:$表示linux中非root用戶,root是#
在windows(cmd)是
python.exe xxx.py
你直接在idle中運行就沒有這些效果.
因為在idle中運行相當於已經進入python交互界面後用
import xxx.py
所以arugment 為空!
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/249122.html