本文目錄一覽:
python數據可視化–可視化概述
數據可視化是python最常見的應用領域之一,數據可視化是藉助圖形化的手段將一組數據以圖形的形式表達出來,並利用數據分析和開發工具發現其中未知信息的數據處理過程。
在學術界有一句話廣為流傳,A picture worths thousand words,就是一圖值千言。在課堂上,我經常舉的例子就是大家在刷朋友圈的時候如果看到有人轉發一篇題目很吸引人的文章時,我們都會點擊進去,可能前幾段話會很認真地看,文章很長的時候後面就會一目十行,失去閱讀的興趣。
所以將數據、表格和文字等內容用圖表的形式表達出來,既能提高讀者閱讀的興趣,還能直觀表達想要表達的內容。
python可視化庫有很多,下面列舉幾個最常用的介紹一下。
matplotlib
它是python眾多數據可視化庫的鼻祖,也是最基礎的底層數據可視化第三方庫,語言風格簡單、易懂,特別適合初學者入門學習。
seaborn
Seaborn是在matplotlib的基礎上進行了更高級的API封裝,從而使得作圖更加容易,在大多數情況下使用seaborn能做出很具有吸引力的圖,而使用matplotlib就能製作具有更多特色的圖。應該把Seaborn視為matplotlib的補充,而不是替代物。
pyecharts
pyecharts是一款將python與echarts結合的強大的數據可視化工具,生成的圖表精巧,交互性良好,可輕鬆集成至 Flask,Sanic,Django 等主流 Web 框架,得到眾多開發者的認可。
bokeh
bokeh是一個面向web瀏覽器的交互式可視化庫,它提供了多功能圖形的優雅、簡潔的構造,並在大型數據集或流式數據集上提供高性能的交互性。
python這些可視化庫可以便捷、高效地生成豐富多彩的圖表,下面列舉一些常見的圖表。
柱形圖
條形圖
坡度圖
南丁格爾玫瑰圖
雷達圖
詞雲圖
散點圖
等高線圖
瀑布圖
相關係數圖
散點曲線圖
直方圖
箱形圖
核密度估計圖
折線圖
面積圖
日曆圖
餅圖
圓環圖
馬賽克圖
華夫餅圖
還有地理空間型等其它圖表,就不一一列舉了,下節開始我們先學習matplotlib這個最常用的可視化庫。
Python數據可視化利器Matplotlib從入門到高級4
2D曲線繪製是Matplotlib繪圖的最基本功能,也是用得最多、最重要的繪圖功能之一,本文開始詳細介紹Matplotlib 2D曲線繪圖功能。我的介紹主要以面向對象的編碼風格為主,但會在文章的末尾附上相應的pyplot風格的源代碼,供大家查閱、對比。我們先看一段代碼:
代碼運行效果如下:
這個繪圖中我們沒有作任何設置,一切交給Matplotlib處理。我們只是看到了繪製出的曲線的樣子。但這與我們所想要的效果可能差異較大。所以我們還需要對圖形進行一些自定義。
不管我們想生成什麼樣的圖形,在Matplotlib當中,大致都可以總結為三步:一是構造繪圖用的數據(Matplotlib推薦numpy數據,本系列介紹Matplotlib繪圖,暫不涉及numpy的相關內容,留待後續有空餘時吧);二是根據數據的特點選擇適當的繪圖方法並繪製出數據的圖形;第三步則是對繪製的圖形進行自定義設置或者美化以達到滿足我們獲得精美的輸出圖形的要求。
在上面的繪圖中,我們僅僅做到了第二步,下面我們來進行一些自定義,而Matplotlib為此提供了非常豐富的功能。
你可能最想先嘗試一下換個顏色看看曲線是什麼樣的,這有很多種方法。首先,我們可以在繪製圖形的時候直接指定它,我們把繪圖的代碼改成下面的樣子:
這裡的 ‘r’ 是 “red”的簡寫,表示將曲線的顏色指定為紅色。也可以寫成下面的樣子,這樣可讀性更高:
plot 返回一個 Line2D 對象的列表,我們使用一個帶有“ line1, ”的元組來解包,隨後使用 set_color() 代碼設置line1 曲線的顏色,請注意這裡設置的顏色會覆蓋 plot 繪圖函數當中指定的顏色。上面三段代碼各自獨立運行之後的效果是一樣的。如下:
為了提高效率,Matplotlib模仿MATLAB支持常用顏色的單字母代碼縮寫。
你還可以使用不區分大小寫的十六進制 RGB 或 RGBA 字符串(如:’#0f0f0f’),或者不區分大小寫的 X11/CSS4 顏色名稱(如:’aquamarine’),以及來自 xkcd color survey 的不區分大小寫的顏色名稱(如:’xkcd:sky blue’)等等。更為詳細的顏色規範,你可以查閱官方文檔。但對於Python辦公而言,掌握這些應該已經足夠了。
與曲線顏色一樣,線型和線寬也有多種方式來指定:
這裡我們最終指定的線寬為2.0磅,繪圖函數當中指定的線寬被後續指定的屬性值覆蓋了。而線型在這裡由set_linestyle()指定,其中“–”和“-.”都是Matplotlib中支持的線型,“–”表示虛線,而“-.”則是點劃線。而Matplotlib默認的線型“-”實線,除此之外,Matplotlib還支持“:”點線。
我們繪製曲線之前構造的數據點在曲線上也可以標記出來,這些標記點有不同的風格。同樣可以以不同的方式來設置它:
注意第一行代碼當中的“r:o”字符串,它是一種簡寫形式,是將顏色、線型和標記點形狀在一個字符串中同時設置的方式,其中的“r”表示紅色,“:”表示點線,“o”表示標記點為大圓點。只有在顏色使用單字符代碼時才可以像上面這樣組合起來同時表示三個屬性。默認情況下,標記點的顏色與線型顏色相同,但可以單獨設置與曲線不同的顏色,不僅如此,標記點的邊線顏色和中間填充顏色也都可以單獨設置。上面第二行代碼我們就使用set_markeredgecolor(‘b’)將標記點邊線顏色設置為了藍色。與標記點設置相關的還有set_marker(設置標記點形狀)、set_markeredgewidth(設置標記點邊線寬度)、set_markerfacecolor(設置標記點中間的填充色)、set_markersize (設置標記點的大小)等。下面是我整理的Matplotlib支持的所有標記點形狀。
本文先介紹到此,後續進一步介紹坐標軸、圖例和網格線的設置。最後附上本文pyplot風格的繪圖代碼:
顯然這種簡單繪圖pyplot風格要簡潔一些,還是很有優勢的。
Python數據分析:可視化
本文是《數據蛙三個月強化課》的第二篇總結教程,如果想要了解 數據蛙社群 ,可以閱讀 給DataFrog社群同學的學習建議 。溫馨提示:如果您已經熟悉python可視化內容,大可不必再看這篇文章,或是之挑選部分文章
對於我們數據分析師來說,不僅要自己明白數據背後的含義,而且還要給老闆更直觀的展示數據的意義。所以,對於這項不可缺少的技能,讓我們來一起學習下吧。
畫圖之前,我們先導入包和生成數據集
我們先看下所用的數據集
折線圖是我們觀察趨勢常用的圖形,可以看出數據隨着某個變量的變化趨勢,默認情況下參數 kind=”line” 表示圖的類型為折線圖。
對於分類數據這種離散數據,需要查看數據是如何在各個類別之間分布的,這時候就可以使用柱狀圖。我們為每個類別畫出一個柱子。此時,可以將參數 kind 設置為 bar 。
條形圖就是將豎直的柱狀圖翻轉90度得到的圖形。與柱狀圖一樣,條形圖也可以有一組或多種多組數據。
水平條形圖在類別名稱很長的時候非常方便,因為文字是從左到右書寫的,與大多數用戶的閱讀順序一致,這使得我們的圖形容易閱讀。而柱狀圖在類別名稱很長的時候是沒有辦法很好的展示的。
直方圖是柱形圖的特殊形式,當我們想要看數據集的分布情況時,選擇直方圖。直方圖的變量劃分至不同的範圍,然後在不同的範圍中統計計數。在直方圖中,柱子之間的連續的,連續的柱子暗示數值上的連續。
箱線圖用來展示數據集的描述統計信息,也就是[四分位數],線的上下兩端表示某組數據的最大值和最小值。箱子的上下兩端表示這組數據中排在前25%位置和75%位置的數值。箱中間的橫線表示中位數。此時可以將參數 kind 設置為 box。
如果想要畫出散點圖,可以將參數 kind 設置為 scatter,同時需要指定 x 和 y。通過散點圖可以探索變量之間的關係。
餅圖是用面積表示一組數據的佔比,此時可以將參數 kind 設置為 pie。
我們剛開始學習的同學,最基本應該明白什麼數據應該用什麼圖形來展示,同學們來一起總結吧。
python可視化神器——pyecharts庫
無意中從今日頭條中看到的一篇文章,可以生成簡單的圖表。據說一些大數據開發們也是經常用類似的圖表庫,畢竟有現成的,改造下就行,誰會去自己造輪子呢。
pyecharts是什麼?
pyecharts 是一個用於生成 Echarts 圖表的類庫。Echarts 是百度開源的一個數據可視化 JS 庫。用 Echarts 生成的圖可視化效果非常棒, pyecharts 是為了與 Python 進行對接,方便在 Python 中直接使用數據生成圖 。使用pyecharts可以生成獨立的網頁,也可以在flask、django中集成使用。
安裝很簡單:pip install pyecharts
如需使用 Jupyter Notebook 來展示圖表,只需要調用自身實例即可,同時兼容 Python2 和 Python3 的 Jupyter Notebook 環境。所有圖表均可正常顯示,與瀏覽器一致的交互體驗,簡直不要太強大。
參考自pyecharts官方文檔:
首先開始來繪製你的第一個圖表
使用 Jupyter Notebook 來展示圖表,只需要調用自身實例即可
add() 主要方法,用於添加圖表的數據和設置各種配置項
render() 默認將會在根目錄下生成一個 render.html 的文件,文件用瀏覽器打開。
使用主題
自 0.5.2+ 起,pyecharts 支持更換主體色系
使用 pyecharts-snapshot 插件
如果想直接將圖片保存為 png, pdf, gif 格式的文件,可以使用 pyecharts-snapshot。使用該插件請確保你的系統上已經安裝了 Nodejs 環境。
安裝 phantomjs $ npm install -g phantomjs-prebuilt
安裝 pyecharts-snapshot $ pip install pyecharts-snapshot
調用 render 方法 bar.render(path=’snapshot.png’) 文件結尾可以為 svg/jpeg/png/pdf/gif。請注意,svg 文件需要你在初始化 bar 的時候設置 renderer=’svg’。
圖形繪製過程
基本上所有的圖表類型都是這樣繪製的:
chart_name = Type() 初始化具體類型圖表。
add() 添加數據及配置項。
render() 生成本地文件(html/svg/jpeg/png/pdf/gif)。
add() 數據一般為兩個列表(長度一致)。如果你的數據是字典或者是帶元組的字典。可利用 cast() 方法轉換。
多次顯示圖表
從 v0.4.0+ 開始,pyecharts 重構了渲染的內部邏輯,改善效率。推薦使用以下方式顯示多個圖表。如果使是 Numpy 或者 Pandas,可以參考這個示例
當然你也可以採用更加酷炫的方式,使用 Jupyter Notebook 來展示圖表,matplotlib 有的,pyecharts 也會有的
Note: 從 v0.1.9.2 版本開始,廢棄 render_notebook() 方法,現已採用更加 pythonic 的做法。直接調用本身實例就可以了。
比如這樣
還有這樣
如果使用的是自定義類,直接調用自定義類示例即可
圖表配置
圖形初始化
通用配置項
xyAxis:平面直角坐標系中的 x、y 軸。(Line、Bar、Scatter、EffectScatter、Kline)
dataZoom:dataZoom 組件 用於區域縮放,從而能自由關注細節的數據信息,或者概覽數據整體,或者去除離群點的影響。(Line、Bar、Scatter、EffectScatter、Kline、Boxplot)
legend:圖例組件。圖例組件展現了不同系列的標記(symbol),顏色和名字。可以通過點擊圖例控制哪些系列不顯示。
label:圖形上的文本標籤,可用於說明圖形的一些數據信息,比如值,名稱等。
lineStyle:帶線圖形的線的風格選項(Line、Polar、Radar、Graph、Parallel)
grid3D:3D笛卡爾坐標系組配置項,適用於 3D 圖形。(Bar3D, Line3D, Scatter3D)
axis3D:3D 笛卡爾坐標系 X,Y,Z 軸配置項,適用於 3D 圖形。(Bar3D, Line3D, Scatter3D)
visualMap:是視覺映射組件,用於進行『視覺編碼』,也就是將數據映射到視覺元素(視覺通道)
markLinemarkPoint:圖形標記組件,用於標記指定的特殊數據,有標記線和標記點兩種。(Bar、Line、Kline)
tooltip:提示框組件,用於移動或點擊鼠標時彈出數據內容
toolbox:右側實用工具箱
圖表詳細
Bar(柱狀圖/條形圖)
Bar3D(3D 柱狀圖)
Boxplot(箱形圖)
EffectScatter(帶有漣漪特效動畫的散點圖)
Funnel(漏斗圖)
Gauge(儀錶盤)
Geo(地理坐標系)
GeoLines(地理坐標系線圖)
Graph(關係圖)
HeatMap(熱力圖)
Kline/Candlestick(K線圖)
Line(折線/面積圖)
Line3D(3D 折線圖)
Liquid(水球圖)
Map(地圖)
Parallel(平行坐標系)
Pie(餅圖)
Polar(極坐標系)
Radar(雷達圖)
Sankey(桑基圖)
Scatter(散點圖)
Scatter3D(3D 散點圖)
ThemeRiver(主題河流圖)
TreeMap(矩形樹圖)
WordCloud(詞雲圖)
用戶自定義
Grid 類:並行顯示多張圖
Overlap 類:結合不同類型圖表疊加畫在同張圖上
Page 類:同一網頁按順序展示多圖
Timeline 類:提供時間線輪播多張圖
統一風格
註:pyecharts v0.3.2以後,pyecharts 將不再自帶地圖 js 文件。如用戶需要用到地圖圖表,可自行安裝對應的地圖文件包。
地圖文件被分成了三個 Python 包,分別為:
全球國家地圖:
echarts-countries-pypkg
中國省級地圖:
echarts-china-provinces-pypkg
中國市級地圖:
echarts-china-cities-pypkg
直接使用python的pip安裝
但是這裡大家一定要注意,安裝完地圖包以後一定要重啟jupyter notebook,不然是無法顯示地圖的。
顯示如下:
總得來說,這是一個非常強大的可視化庫,既可以集成在flask、Django開發中,也可以在做數據分析的時候單獨使用,實在是居家旅行的必備神器啊
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/285489.html