本文目錄一覽:
學完Python都可以做什麼
學習python主要是自學或者報班學習的方式,但不建議自學。
如果想通過學習python改行,那就需要明確一下自己的方向。因為python編程有很多方向,有網路爬蟲、數據分析、Web開發、測試開發、運維開發、機器學習、人工智慧、量化交易等等,各個方向都有特定的技能要求。
想學的話,當然是可以學習的。python是一門語法優美的編程語言,不僅可以作為小工具使用提升我們日常工作效率,也可以單獨作為一項高新就業技能!
python可以做的事情:
軟體開發:用python做軟體是很多人正在從事的工作,不管是B/S軟體,還是C/S軟體,都能做。並且需求量還是挺大的;
數據挖掘:python可以製作出色的爬蟲工具來進行數據挖掘,而在很多的網路公司中數據挖掘的崗位也不少;
遊戲開發:python擴展性很好,擁有遊戲開發的庫,而且遊戲開發絕對是暴力職業;
大數據分析:如今是大數據的時代,用python做大數據也是可以的,大數據分析工程師也是炙手可熱的職位;
全棧工程師:如今程序員都在向著全棧的方向發展,而學習python更具備這方面的優勢;
系統運維:python在很多linux中都支持,而且語法特點很向shell腳本,學完python做個系統運維也是很不錯的。
互聯網行業目前還是最熱門的行業之一,學習IT技能之後足夠優秀是有機會進入騰訊、阿里、網易等互聯網大廠高薪就業的,發展前景非常好,普通人也可以學習。
想要系統學習,你可以考察對比一下開設有相關專業的熱門學校,好的學校擁有根據當下企業需求自主研發課程的能力,能夠在校期間取得大專或本科學歷,中博軟體學院、南京課工場、南京北大青鳥等開設相關專業的學校都是不錯的,建議實地考察對比一下。
祝你學有所成,望採納。
請點擊輸入圖片描述
如何用Python做爬蟲
1)首先你要明白爬蟲怎樣工作。
想像你是一隻蜘蛛,現在你被放到了互聯「網」上。那麼,你需要把所有的網頁都看一遍。怎麼辦呢?沒問題呀,你就隨便從某個地方開始,比如說人民日報的首頁,這個叫initial pages,用$表示吧。
在人民日報的首頁,你看到那個頁面引向的各種鏈接。於是你很開心地從爬到了「國內新聞」那個頁面。太好了,這樣你就已經爬完了倆頁面(首頁和國內新聞)!暫且不用管爬下來的頁面怎麼處理的,你就想像你把這個頁面完完整整抄成了個html放到了你身上。
突然你發現, 在國內新聞這個頁面上,有一個鏈接鏈回「首頁」。作為一隻聰明的蜘蛛,你肯定知道你不用爬回去的吧,因為你已經看過了啊。所以,你需要用你的腦子,存下你已經看過的頁面地址。這樣,每次看到一個可能需要爬的新鏈接,你就先查查你腦子裡是不是已經去過這個頁面地址。如果去過,那就別去了。
好的,理論上如果所有的頁面可以從initial page達到的話,那麼可以證明你一定可以爬完所有的網頁。
那麼在python里怎麼實現呢?
很簡單
import Queue
initial_page = “初始化頁”
url_queue = Queue.Queue()
seen = set()
seen.insert(initial_page)
url_queue.put(initial_page)
while(True): #一直進行直到海枯石爛
if url_queue.size()0:
current_url = url_queue.get() #拿出隊例中第一個的url
store(current_url) #把這個url代表的網頁存儲好
for next_url in extract_urls(current_url): #提取把這個url里鏈向的url
if next_url not in seen:
seen.put(next_url)
url_queue.put(next_url)
else:
break
寫得已經很偽代碼了。
所有的爬蟲的backbone都在這裡,下面分析一下為什麼爬蟲事實上是個非常複雜的東西——搜索引擎公司通常有一整個團隊來維護和開發。
2)效率
如果你直接加工一下上面的代碼直接運行的話,你需要一整年才能爬下整個豆瓣的內容。更別說Google這樣的搜索引擎需要爬下全網的內容了。
問題出在哪呢?需要爬的網頁實在太多太多了,而上面的代碼太慢太慢了。設想全網有N個網站,那麼分析一下判重的複雜度就是N*log(N),因為所有網頁要遍歷一次,而每次判重用set的話需要log(N)的複雜度。OK,OK,我知道python的set實現是hash——不過這樣還是太慢了,至少內存使用效率不高。
通常的判重做法是怎樣呢?Bloom Filter. 簡單講它仍然是一種hash的方法,但是它的特點是,它可以使用固定的內存(不隨url的數量而增長)以O(1)的效率判定url是否已經在set中。可惜天下沒有白吃的午餐,它的唯一問題在於,如果這個url不在set中,BF可以100%確定這個url沒有看過。但是如果這個url在set中,它會告訴你:這個url應該已經出現過,不過我有2%的不確定性。注意這裡的不確定性在你分配的內存足夠大的時候,可以變得很小很少。一個簡單的教程:Bloom Filters by Example
注意到這個特點,url如果被看過,那麼可能以小概率重複看一看(沒關係,多看看不會累死)。但是如果沒被看過,一定會被看一下(這個很重要,不然我們就要漏掉一些網頁了!)。 [IMPORTANT: 此段有問題,請暫時略過]
好,現在已經接近處理判重最快的方法了。另外一個瓶頸——你只有一台機器。不管你的帶寬有多大,只要你的機器下載網頁的速度是瓶頸的話,那麼你只有加快這個速度。用一台機子不夠的話——用很多台吧!當然,我們假設每台機子都已經進了最大的效率——使用多線程(python的話,多進程吧)。
3)集群化抓取
爬取豆瓣的時候,我總共用了100多台機器晝夜不停地運行了一個月。想像如果只用一台機子你就得運行100個月了…
那麼,假設你現在有100台機器可以用,怎麼用python實現一個分散式的爬取演算法呢?
我們把這100台中的99台運算能力較小的機器叫作slave,另外一台較大的機器叫作master,那麼回顧上面代碼中的url_queue,如果我們能把這個queue放到這台master機器上,所有的slave都可以通過網路跟master聯通,每當一個slave完成下載一個網頁,就向master請求一個新的網頁來抓取。而每次slave新抓到一個網頁,就把這個網頁上所有的鏈接送到master的queue里去。同樣,bloom filter也放到master上,但是現在master只發送確定沒有被訪問過的url給slave。Bloom Filter放到master的內存里,而被訪問過的url放到運行在master上的Redis里,這樣保證所有操作都是O(1)。(至少平攤是O(1),Redis的訪問效率見:LINSERT – Redis)
考慮如何用python實現:
在各台slave上裝好scrapy,那麼各台機子就變成了一台有抓取能力的slave,在master上裝好Redis和rq用作分散式隊列。
代碼於是寫成
#slave.py
current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
to_send.append(next_url)
store(current_url);
send_to_master(to_send)
#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()
initial_pages = “”
while(True):
if request == ‘GET’:
if distributed_queue.size()0:
send(distributed_queue.get())
else:
break
elif request == ‘POST’:
bf.put(request.url)
好的,其實你能想到,有人已經給你寫好了你需要的:darkrho/scrapy-redis · GitHub
4)展望及後處理
雖然上面用很多「簡單」,但是真正要實現一個商業規模可用的爬蟲並不是一件容易的事。上面的代碼用來爬一個整體的網站幾乎沒有太大的問題。
但是如果附加上你需要這些後續處理,比如
有效地存儲(資料庫應該怎樣安排)
有效地判重(這裡指網頁判重,咱可不想把人民日報和抄襲它的大民日報都爬一遍)
有效地信息抽取(比如怎麼樣抽取出網頁上所有的地址抽取出來,「朝陽區奮進路中華道」),搜索引擎通常不需要存儲所有的信息,比如圖片我存來幹嘛…
及時更新(預測這個網頁多久會更新一次)
如你所想,這裡每一個點都可以供很多研究者十數年的研究。雖然如此,
「路漫漫其修遠兮,吾將上下而求索」。
所以,不要問怎麼入門,直接上路就好了:)
Python有哪些技術上的優點?比其他語言好在哪兒?
Python有哪些技術上的優點
1. 面向對象和函數式
從根本上講,Python是一種面向對象的語言。它的類模型支持多態、運算符重載和多重繼承等高級概念,並且以Python特有的簡潔的語法和類型為背景,OOP十分易於使用。事實上,即使你不懂這些術語,仍會發現學習Python比學習其他OOP語言要容易得多。
除了作為一種強大的代碼組織和重用手段以外,Python的OOP本質使它成為其他面向對象系統語言的理想腳本工具。例如,通過適當的粘接代碼,Python程序可以對C++、Java和C#的類進行子類的定製。
OOP只是Python的一個選擇而已,這一點非常重要。即使不能立馬成為一個面向對象高手,但你同樣可以繼續深入學習。就像C++一樣,Python既支持面向對象編程也支持面向過程編程的模式。如果條件允許,其面向對象的工具可以立即派上用場。這對策略開發模式十分有用,該模式常用於軟體開發的設計階段。
除了最初的過程式(語句為基礎)和面向對象(類為基礎)的編程範式,Python在最近幾年內置了對函數式編程的支持——一個多數情況下包括生成器、推導、閉包、映射、裝飾器、匿名lambda函數和第一類函數對象的集合。這是對其本身OOP工具的補充和替代。
2. 免費
Python的使用和分發是完全免費的。就像其他的開源軟體一樣,例如,Tcl、Perl、Linux和Apache。你可以從Internet上免費獲得Python的源代碼。你可以不受限制地複製Python,或將其嵌入你的系統或者隨產品一起發布。實際上,如果你願意的話,甚至可以銷售它的源代碼。
但請別誤會:「免費」並不代表「沒有支持」。恰恰相反,Python的在線社區對用戶需求的響應和商業軟體一樣快。而且,由於Python完全開放源代碼,提高了開發者的實力,併產生了一個很大的專家團隊。
儘管研究或改變一種程序語言的實現並不是對每一個人來說都那麼有趣,但是當你知道如果需要的話可以做到這些,該是多麼的令人欣慰。你不需要去依賴商業廠商的智慧,因為最終的文檔和終極的凈土(源碼)任憑你的使用。
Python的開發是由社區驅動的,是Internet大範圍的協同合作努力的結果。Python語言的改變必須遵循一套規範而有約束力的程序(稱作PEP流程),並需要經過規範的測試系統進行徹底檢查。正是這樣才使得Python相對於其他語言和系統可以保守地持續改進。
儘管Python 2.X和Python 3.X版本之間的分裂有力並蓄意地破壞了這項傳統,但通常它仍然體現在Python的這兩個系列內部。
3. 可移植
Python的標準實現是由可移植的ANSI C編寫的,可以在目前所有主流平台上編譯和運行。例如,如今從掌上電腦(PDA)到超級計算機,隨處可見 Python的運行。Python可以在下列平台上運行(這裡只是部分列表):
Linux和UNIX系統
微軟Windows(所有現代版本)
Mac OS(包括OS X 和經典版)
BeOS、OS/2、VMS和QNX
實時操作系統,例如VxWorks
Cray超級計算機和IBM大型機
運行Palm OS、PocketPC和Linux的PDA
運行 Symbian OS和Windows Mobile 的行動電話
遊戲終端和iPod
運行谷歌安卓系統和蘋果iOS系統的平板和智能手機
以及更多
除了語言解釋器本身以外,Python發行時自帶的標準庫和模塊在實現上也都儘可能地考慮到了跨平台的移植性。此外,Python程序自動編譯成可移植的位元組碼,這些位元組碼在已安裝兼容版本Python的平台上運行的結果都是相同的。
這些意味著Python程序的核心語言和標準庫可以在Linux、Windows和其他帶有Python解釋器的平台上無差別地運行。大多數Python外圍介面都有平台相關的擴展(例如COM支持Windows),但是核心語言和庫在任何平台都一樣。
就像之前我們提到的那樣,Python還包含了一個叫作tkinter(Tkinter的2.X版本)的Tk GUI工具包,它可以使Python程序實現功能完整的,無須做任何修改即可在所有主流GUI桌面平台運行的用戶圖形界面。
4. 功能強大
從語言特性的角度來看,Python是一個混合體。它豐富的工具集使它介於傳統的腳本語言(如Tcl、Scheme和Perl)和系統語言(如C、C++和Java)之間。Python提供了所有腳本語言的簡單和易用性,並且具有那些在編譯語言中才能找到的高級軟體工程工具。
不像其他腳本語言不同,這種結合使Python在長期大型的開發項目中十分有用。下面是一些Python工具箱中的工具簡介:
動態類型
Python在程序運行過程中跟蹤對象的類型,不需要代碼中進行關於複雜的類型和大小的聲明。事實上,Python中沒有類型或變數聲明這種做法。因為Python代碼不約束數據的類型,它往往自動地應用了一種廣義上的對象。
自動內存管理
Python自動為對象分配空間,並且當對象不再使用時將自動撤銷空間(「垃圾回收」),當需要時自動擴展或收縮。正如你將學到的,Python能夠幫你完成底層的內存管理。
大型程序支持
為了能建立更大規模的系統,Python包含了模塊、類和異常等工具。這些工具允許你把系統組織為組件,使用OOP重用並定製代碼,並以一種優雅的方式處理事件和錯誤。前面提到的Python函數式編程工具,提供了實現相同目標的其他方法。
內置對象類型
Python提供了常用的數據結構作為語言的基本組成部分。例如,列表(list)、字典(dictionary)、字元串(string)。我們將會看到,它們靈活並易於使用。例如,內置對象可以根據需求擴展或收縮,可以任意地組織複雜的信息等。
內置工具
為了對以上對象類型進行處理,Python自帶了許多強大的標準操作,包括拼接(concatenation)、分片(slice)、排序(sort)和映射(mapping)等。
庫工具
為了完成更多特定的任務,Python預置了許多預編碼的庫工具,從正則表達式匹配到網路都支持。當你掌握了語言本身,就能在應用級的操作中使用Python的庫工具。
第三方工具
由於Python是開源的,它鼓勵開發者提供Python內置工具之外的預編碼工具。你可以在網上找到COM、圖像處理、數值編程、XML、資料庫訪問等許多免費的支持工具。
除了這一系列的Python工具外,Python保持了相當簡潔的語法和設計。綜合這一切得到的就是一個具有腳本語言所有可用性的強大編程工具。
請點擊輸入圖片描述
5. 可混合
Python程序可以以多種方式輕易地與其他語言編寫的組件「粘接」在一起。例如,Python的C語言API可以幫助Python程序靈活地調用C程序。這意味著可以根據需要給Python程序添加功能,或者在其他環境系統中使用Python。
例如,將Python與C或者C++寫成的庫文件混合起來,使Python成為一個前端語言和定製工具。就像之前我們所提到過的那樣,這使Python成為一個很好的快速原型工具;系統可以在開發初期出於速度考慮使用Python實現,然後轉移至C,根據不同時期性能的需要逐步實現系統。
6. 相對簡單易用
同其他語言(如C++、Java和C#)相比,Python編程對大多數用戶來講出奇得簡單。要運行Python程序,你只需簡單地鍵入Python程序並運行就可以了。不需要其他語言(如C或C++)所必需的編譯和鏈接等中間步驟。
Python可立即執行程序,這形成了一種互動式編程體驗和不同情況下快速調整的能力,往往在修改代碼後幾乎能立即看到程序改變後的效果。
當然,開發周期短僅僅是Python易用性的一方面的體現。Python提供了簡潔的語法和強大的內置工具。實際上,Python曾被稱為「可執行的偽代碼」。由於它減少了其他工具常見的複雜性,在實現相同的功能時,Python程序比採用其他流行語言編寫的程序更為簡單、小巧,也更靈活。
請點擊輸入圖片描述
7. 相對簡單易學
這一部分引出了本書的重點:尤其同其他廣泛使用的編程語言比較時,Python語言的核心相當簡單易學。實際上,如果你是一位有經驗的程序員,你可以期望在幾天內寫出小規模的Python代碼,你也許能在幾個小時之內習得Python的一招一式,但是你並不能指望在如此短的時間內成為專家(忘掉市面上的那些宣傳廣告吧)。
當然,掌握任何像今天Python這樣的充實主題都不是一件輕鬆事,我們將在本書的剩餘部分致力於此項任務。但是為了掌握Python而進行的真正投資是非常值得的——最終你會獲取幾乎在每個計算機應用程序領域都適用的編程技能。此外,很多人還發現Python的學習曲線比其他的編程語言更加平緩。
這對於那些想學習語言以在工作中應用的專業人員來說是一個好消息,同樣對於那些使用Python層進行定製和控制的系統的終端用戶來說,也是一個好消息。如今,許多系統都依賴於這一事實:用戶可以在沒有或者得到很少支持的情況下就學到足夠的Python知識以便當場增刪他們的Python定製化代碼。
此外,Python還孕育出一群不以編程為生而以編程為樂的用戶,他們並不需要掌握全面的軟體開發技巧。儘管Python還是有很多高級編程工具,但不論對初學者還是行家來說,Python的核心語言精髓仍是相當簡單的。
8. 以Monty Python命名
好的,在講完這麼多技術方面的優勢後,我想再揭露一個Python世界裡面令人驚奇而保守良好的小秘密。
儘管Python的書和圖標中有很多爬行動物,真相卻是Python以英國喜劇組「Monty Python」命名——這是BBC 在20世紀70年代喜劇《Monty Python’s Flying Circus》的製片方,也是至今仍在流行的少量包括《Monty Python and the Holy Grai》在內的大電影的製片方。Python的最初創作者是Monty Python的粉絲,這同其他許多的軟體開發者一樣(事實上,這兩個領域存在某種對稱性……)。
請點擊輸入圖片描述
▲《Python學習手冊》書封上的爬行動物
這段有趣的歷史無疑增加了Python代碼例子的幽默屬性。例如,作為一般變數名命名傳統的「foo」和「bar」在Python世界中變成了「spam」和「eggs」。而在Python中偶爾出現的「Brian」,「ni」和「shrubbery」表現得也同此類似。它甚至影響了Python的整個社區。
當然了,如果你對這部喜劇非常熟悉,就能體會這其中的笑點,但如果不熟悉則相反。你不必非得熟悉Monty Python這部劇來了解從劇中獲得靈感的例子(包括你將在本書中看到的許多例子),但至少你現在知道它們的起源了。(嗨——我已經告訴你啦。)
02
Python和其他語言比較起來怎麼樣
最後,你也許已經知道了,人們往往將Python與Perl、Tcl和Javat等語言相比較。這部分總結這方面的一些普遍共識。
我想預先表明我個人並不喜歡通過詆毀競爭者來獲勝——這在長期是行不通的,而且也不是這裡的目的。此外,這並不是一場零和遊戲——絕大多數的程序員在他們的職業生涯中都會使用許多語言。儘管如此,編程工具也展示出值得考慮的選擇和權衡。畢竟,如果Python沒有比它的競爭者提供更多的東西,那麼它一開始就不會被人們使用了。
請點擊輸入圖片描述
我們之前已經介紹過性能上的權衡,那麼這裡重點談一下功能。儘管下面列舉的這些語言也是值得學習和使用的有力工具,但人們通常認為Python:
比Tcl強大。Python強有力地支持「大規模編程」,使其適用於開發大型系統,它的應用程序庫也更加豐富。
比Perl更具可讀性。Python有著簡潔的語法和簡單連貫的設計,這反過來使得Python更具可讀性和更易於維護,同時有助於減少程序bug。
比Java和C#更簡單、更易於使用。Python是一門腳本語言,但Java和C#兩者從像C++這樣更加大型的OOP系統語言中繼承了許多語法和複雜性。
比C++更簡單、更易於使用。Python代碼比等效的C++代碼更加簡單,長度只有其五分之一到三分之一。儘管作為腳本語言,Python有時能扮演許多不同的角色。
比C更加簡單和高級。Python遠離底層硬體架構從而降低了代碼複雜性,擁有更好的組織結構,並比C(C++的祖先)更加友善。
比Visual Basic更強大,用途廣泛,也更具備跨平台特性。Python是更加廣泛使用的更豐富的語言,它的開源本質意味著它不可能被某一個公司所掌控。
比PHP更易懂並且用途更廣。Python也用來構建Web站點,但是,它也應用於幾乎每個計算機領域,從機器人到電影動畫和遊戲。
比JavaScript更強大和用途廣泛。Python有一個更大的工具集,也並不是牢牢地束縛於Web開發。它也用於科學建模、儀器調試等。
比Ruby更具可讀性,並更為人們所接受。Python的語法混亂更少,尤其在較複雜代碼中,同時它的OOP對用戶和和不太使用OOP的工程中是完全可選的。
比Lua更成熟和受到更廣泛關注。Python更加龐大的特性集合和更加擴展的庫支持給予其比Lua(一門和Tcl一樣的嵌入式「膠水」語言)更加寬廣的視野。
比SmallTalk、Lisp和Prolog更不晦澀。Python擁有這類函數式語言的動態品味,但是也擁有開發者和定製系統終端用戶都可接受的傳統語法。
特別是對不僅僅用於個人掃描文本文件,未來會被人們(包括你在內)讀到的程序而言,很多人會發現Python比目前任何可用的腳本或編程語言都划得來。不僅如此,除非你的應用要求最尖端的性能,Python往往是C、C++和Java等系統開發語言的一個不錯的替代品:Python代碼能夠常常實現相同的目標,卻會減少很多編寫、調試和維護的麻煩。
當然,本文作者從1992年就已經是Python的正式佈道者了,所以儘可能接受這些意見吧(其他語言的擁護者的利益可能會受到些損失)。然而,所有這些觀點的確代表了投入時間和精力來探索Python的眾多開發者的一致看法。
關於作者:Mark Lutz是一位世界級的Python培訓講師。他是Python暢銷書籍的作者,同時從1992年起就成為Python社區的引領者,有著30餘年的軟體開發經驗。
本文摘編自《Python學習手冊》(原書第5版),經出版方授權發布。
請點擊輸入圖片描述
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/247803.html