aws的python封裝的簡單介紹

本文目錄一覽：

1、我為什麼說 Python 是大數據全棧式開發語言
2、AWS Lambda Layer For Python Pakage
3、s3 的sdk aws提供python版本的了嗎

我為什麼說 Python 是大數據全棧式開發語言

就像只要會JavaScript就可以寫出完整的Web應用，只要會Python，就可以實現一個完整的大數據處理平台。

雲基礎設施

這年頭，不支持雲平台，不支持海量數據，不支持動態伸縮，根本不敢說自己是做大數據的，頂多也就敢跟人說是做商業智能（BI）。

雲平台分為私有雲和公有雲。私有雲平台如日中天的 OpenStack

，就是Python寫的。曾經的追趕者CloudStack，在剛推出時大肆強調自己是Java寫的，比Python有優勢。結果，搬石砸腳，2015年

初，CloudStack的發起人Citrix宣布加入OpenStack基金會，CloudStack眼看著就要壽終正寢。

如果嫌麻煩不想自己搭建私有雲，用公有雲，不論是AWS，GCE，Azure，還是阿里雲，青雲，在都提供了Python SDK，其中GCE只提供Python和JavaScript的SDK，而青雲只提供Python SDK。可見各家雲平台對Python的重視。

提到基礎設施搭建，不得不提Hadoop，在今天，Hadoop因為其MapReduce數據處理速度不夠快，已經不再作為大數據處理的首選，但

是HDFS和Yarn——Hadoop的兩個組件——倒是越來越受歡迎。Hadoop的開發語言是Java，沒有官方提供Python支持，不過有很多第

三方庫封裝了Hadoop的API介面（pydoop，hadoopy等等）。

Hadoop MapReduce的替代者，是號稱快上100倍的 Spark ，其開發語言是Scala，但是提供了Scala，Java，Python的開發介面，想要討好那麼多用Python開發的數據科學家，不支持Python，真是說不過去。HDFS的替代品，比如GlusterFS， Ceph 等，都是直接提供Python支持。Yarn的替代者， Mesos 是C++實現，除C++外，提供了Java和Python的支持包。

DevOps

DevOps有個中文名字，叫做開發自運維。互聯網時代，只有能夠快速試驗新想法，並在第一時間，安全、可靠的交付業務價值，才能保持競爭力。DevOps推崇的自動化構建/測試/部署，以及系統度量等技術實踐，是互聯網時代必不可少的。

自動化構建是因應用而易的，如果是Python應用，因為有setuptools, pip, virtualenv, tox,

flake8等工具的存在，自動化構建非常簡單。而且，因為幾乎所有Linux系統都內置Python解釋器，所以用Python做自動化，不需要系統預

安裝什麼軟體。

自動化測試方面，基於Python的 Robot Framework 企業級應用最喜歡的自動化測試框架，而且和語言無關。Cucumber也有很多支持者，Python對應的Lettuce可以做到完全一樣的事情。 Locust 在自動化性能測試方面也開始受到越來越多的關注。

自動化配置管理工具，老牌的如Chef和Puppet，是Ruby開發，目前仍保持著強勁的勢頭。不過，新生代 Ansible 和 SaltStack ——均為Python開發——因為較前兩者設計更為輕量化，受到越來越多開發這的歡迎，已經開始給前輩們製造了不少的壓力。

在系統監控與度量方面，傳統的Nagios逐漸沒落，新貴如 Sensu 大受好評，雲服務形式的New Relic已經成為創業公司的標配，這些都不是直接通過Python實現的，不過Python要接入這些工具，並不困難。

除了上述這些工具，基於Python，提供完整DevOps功能的PaaS平台，如 Cloudify 和 Deis ，雖未成氣候，但已經得到大量關注。

網路爬蟲

大數據的數據從哪裡來？除了部分企業有能力自己產生大量的數據，大部分時候，是需要靠爬蟲來抓取互聯網數據來做分析。

網路爬蟲是Python的傳統強勢領域，最流行的爬蟲框架Scrapy，HTTP工具包urlib2，HTML解析工具beautifulsoup，XML解析器lxml，等等，都是能夠獨當一面的類庫。

不過，網路爬蟲並不僅僅是打開網頁，解析HTML這麼簡單。高效的爬蟲要能夠支持大量靈活的並發操作，常常要能夠同時幾千甚至上萬個網頁同時抓取，傳統的

線程池方式資源浪費比較大，線程數上千之後系統資源基本上就全浪費在線程調度上了。Python由於能夠很好的支持協程（ Coroutine ）操作，基於此發展起來很多並發庫，如Gevent，Eventlet，還有Celery之類的分散式任務框架。被認為是比AMQP更高效的ZeroMQ也是最早就提供了Python版本。有了對高並發的支持，網路爬蟲才真正可以達到大數據規模。

抓取下來的數據，需要做分詞處理，Python在這方面也不遜色，著名的自然語言處理程序包NLTK，還有專門做中文分詞的Jieba，都是做分詞的利器。

數據處理

萬事俱備，只欠東風。這東風，就是數據處理演算法。從統計理論，到數據挖掘，機器學習，再到最近幾年提出來的深度學習理論，數據科學正處於百花齊放的時代。數據科學家們都用什麼編程？

如果是在理論研究領域，R語言也許是最受數據科學家歡迎的，但是R語言的問題也很明顯，因為是統計學家們創建了R語言，所以其語法略顯怪異。而且

R語言要想實現大規模分散式系統，還需要很長一段時間的工程之路要走。所以很多公司使用R語言做原型試驗，演算法確定之後，再翻譯成工程語言。

Python也是數據科學家最喜歡的語言之一。和R語言不同，Python本身就是一門工程性語言，數據科學家用Python實現的演算法，可以直

接用在產品中，這對於大數據初創公司節省成本是非常有幫助的。正式因為數據科學家對Python和R的熱愛，Spark為了討好數據科學家，對這兩種語言

提供了非常好的支持。

Python的數據處理相關類庫非常多。高性能的科學計算類庫NumPy和SciPy，給其他高級演算法打了非常好的基礎，matploglib讓

Python畫圖變得像Matlab一樣簡單。Scikit-learn和Milk實現了很多機器學習演算法，基於這兩個庫實現的 Pylearn2 ，是深度學習領域的重要成員。 Theano 利用GPU加速，實現了高性能數學符號計算和多維矩陣計算。當然，還有 Pandas ，一個在工程領域已經廣泛使用的大數據處理類庫，其DataFrame的設計借鑒自R語言，後來又啟發了Spark項目實現了類似機制。

對了，還有 iPython ，這個工具如此有用，以至於我差點把他當成標準庫而忘了介紹。iPython是一個互動式Python運行環境，能夠實時看到每一段Python代碼的結果。默認情況下，iPython運行在命令行，可以執行 ipython notebook 在網頁中運行。用matplotlib繪製的圖可以直接嵌入式的顯示在iPython Notebook中。

iPython Notebook的筆記本文件可以共享給其他人，這樣其他人就可以在自己的環境中重現你的工作成果；如果對方沒有運行環境，還可以直接轉換成HTML或者PDF。

為什麼是Python

正是因為應用開發工程師、運維工程師、數據科學家都喜歡Python，才使得Python成為大數據系統的全棧式開發語言。

對於開發工程師而言，Python的優雅和簡潔無疑是最大的吸引力，在Python互動式環境中，執行 import this

，讀一讀Python之禪，你就明白Python為什麼如此吸引人。Python社區一直非常有活力，和NodeJS社區軟體包爆炸式增長不

同，Python的軟體包增長速度一直比較穩定，同時軟體包的質量也相對較高。有很多人詬病Python對於空格的要求過於苛刻，但正是因為這個要求，才

使得Python在做大型項目時比其他語言有優勢。OpenStack項目總共超過200萬行代碼，證明了這一點。

對於運維工程師而言，Python的最大優勢在於，幾乎所有Linux發行版都內置了Python解釋器。Shell雖然功能強大，但畢竟語法不夠優雅，寫比較複雜的任務會很痛苦。用Python替代Shell，做一些複雜的任務，對運維人員來說，是一次解放。

對於數據科學家而言，Python簡單又不失強大。和C/C++相比，不用做很多的底層工作，可以快速進行模型驗證；和Java相比，Python語法簡

潔，表達能力強，同樣的工作只需要1/3代碼；和Matlab，Octave相比，Python的工程成熟度更高。不止一個編程大牛表達過，Python

是最適合作為大學計算機科學編程課程使用的語言——MIT的計算機入門課程就是使用的Python——因為Python能夠讓人學到編程最重要的東西——

如何解決問題。

AWS Lambda Layer For Python Pakage

這裡使用Anaconda 來創建Python Package 包

注意：python 版本最好和Lambda的Python版本對應

最好每次安裝少量的包，因為Lambad 對Layer的尺寸有限制，而每個Lambda 可以使用5個Layer。分開安裝是比較好的策略

找到 conda 新環境的（my_env）的文件夾，Windows 一般在：

所有package 必須放在 python 目錄下，否則 Lambda不認

my_layer.zip

| python/numpy

| python/numpy-***.dist-info

C:\Users\ your_user_name \.conda\envs

evns 下一般有多個路徑，找到新建evn 的名字。將 Lib 下 site-packages 文件夾打成zip 包。

該Zip包就是要上傳到Layer 的壓縮包。

關於文件尺寸

以下限制至2020-11-01有效，以後可能會發生變動。

在Lambda 中選擇Layers，進入Layers 頁面後，選擇

「Create layer」

在上傳頁面，上傳Zip（如果是S3導入，填寫S3上Zip 文件路徑）

成功後，可以在Layer 列表中看到剛剛創建的Layer

選擇一個Function ，點擊「Add a layer」即可

Layer 是針對某個具體的Function 加的，Function可以根據不同的功能，選擇合適的Layer。

個人感覺Lambda 的Layer就像是 App 的動態載入庫。

s3 的sdk aws提供python版本的了嗎

直接使用按類型的AWS雲平台不就行了，何必選擇第三方的呢。

AWS支持多種開發語言，提供Java、Rupy、Python、PHP、Windows .NET 以及Android和iOS的工具集。工具集中包含各種語言的SDK，程序自動部署以及各種管理工具。另外，AWS通過CloudWatch系統提供豐富的監控功能。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/284598.html

aws的python封裝的簡單介紹

本文目錄一覽：

我為什麼說 Python 是大數據全棧式開發語言

AWS Lambda Layer For Python Pakage

s3 的sdk aws提供python版本的了嗎

相關推薦

發表回復