本文目錄一覽:
python數據可視化–可視化概述
數據可視化是python最常見的應用領域之一,數據可視化是藉助圖形化的手段將一組數據以圖形的形式表達出來,並利用數據分析和開發工具發現其中未知信息的數據處理過程。
在學術界有一句話廣為流傳,A picture worths thousand words,就是一圖值千言。在課堂上,我經常舉的例子就是大家在刷朋友圈的時候如果看到有人轉發一篇題目很吸引人的文章時,我們都會點擊進去,可能前幾段話會很認真地看,文章很長的時候後面就會一目十行,失去閱讀的興趣。
所以將數據、表格和文字等內容用圖表的形式表達出來,既能提高讀者閱讀的興趣,還能直觀表達想要表達的內容。
python可視化庫有很多,下面列舉幾個最常用的介紹一下。
matplotlib
它是python眾多數據可視化庫的鼻祖,也是最基礎的底層數據可視化第三方庫,語言風格簡單、易懂,特別適合初學者入門學習。
seaborn
Seaborn是在matplotlib的基礎上進行了更高級的API封裝,從而使得作圖更加容易,在大多數情況下使用seaborn能做出很具有吸引力的圖,而使用matplotlib就能製作具有更多特色的圖。應該把Seaborn視為matplotlib的補充,而不是替代物。
pyecharts
pyecharts是一款將python與echarts結合的強大的數據可視化工具,生成的圖表精巧,交互性良好,可輕鬆集成至 Flask,Sanic,Django 等主流 Web 框架,得到眾多開發者的認可。
bokeh
bokeh是一個面向web瀏覽器的互動式可視化庫,它提供了多功能圖形的優雅、簡潔的構造,並在大型數據集或流式數據集上提供高性能的交互性。
python這些可視化庫可以便捷、高效地生成豐富多彩的圖表,下面列舉一些常見的圖表。
柱形圖
條形圖
坡度圖
南丁格爾玫瑰圖
雷達圖
詞雲圖
散點圖
等高線圖
瀑布圖
相關係數圖
散點曲線圖
直方圖
箱形圖
核密度估計圖
折線圖
面積圖
日曆圖
餅圖
圓環圖
馬賽克圖
華夫餅圖
還有地理空間型等其它圖表,就不一一列舉了,下節開始我們先學習matplotlib這個最常用的可視化庫。
Python數據分析:可視化
本文是《數據蛙三個月強化課》的第二篇總結教程,如果想要了解 數據蛙社群 ,可以閱讀 給DataFrog社群同學的學習建議 。溫馨提示:如果您已經熟悉python可視化內容,大可不必再看這篇文章,或是之挑選部分文章
對於我們數據分析師來說,不僅要自己明白數據背後的含義,而且還要給老闆更直觀的展示數據的意義。所以,對於這項不可缺少的技能,讓我們來一起學習下吧。
畫圖之前,我們先導入包和生成數據集
我們先看下所用的數據集
折線圖是我們觀察趨勢常用的圖形,可以看出數據隨著某個變數的變化趨勢,默認情況下參數 kind=”line” 表示圖的類型為折線圖。
對於分類數據這種離散數據,需要查看數據是如何在各個類別之間分布的,這時候就可以使用柱狀圖。我們為每個類別畫出一個柱子。此時,可以將參數 kind 設置為 bar 。
條形圖就是將豎直的柱狀圖翻轉90度得到的圖形。與柱狀圖一樣,條形圖也可以有一組或多種多組數據。
水平條形圖在類別名稱很長的時候非常方便,因為文字是從左到右書寫的,與大多數用戶的閱讀順序一致,這使得我們的圖形容易閱讀。而柱狀圖在類別名稱很長的時候是沒有辦法很好的展示的。
直方圖是柱形圖的特殊形式,當我們想要看數據集的分布情況時,選擇直方圖。直方圖的變數劃分至不同的範圍,然後在不同的範圍中統計計數。在直方圖中,柱子之間的連續的,連續的柱子暗示數值上的連續。
箱線圖用來展示數據集的描述統計信息,也就是[四分位數],線的上下兩端表示某組數據的最大值和最小值。箱子的上下兩端表示這組數據中排在前25%位置和75%位置的數值。箱中間的橫線表示中位數。此時可以將參數 kind 設置為 box。
如果想要畫出散點圖,可以將參數 kind 設置為 scatter,同時需要指定 x 和 y。通過散點圖可以探索變數之間的關係。
餅圖是用面積表示一組數據的佔比,此時可以將參數 kind 設置為 pie。
我們剛開始學習的同學,最基本應該明白什麼數據應該用什麼圖形來展示,同學們來一起總結吧。
Python 數據可視化:數據分布統計圖和熱圖
本課將繼續介紹 Seaborn 中的統計圖。一定要牢記,Seaborn 是對 Matplotlib 的高級封裝,它優化了很多古老的做圖過程,因此才會看到一個函數解決問題的局面。
在統計學中,研究數據的分布情況,也是一個重要的工作,比如某些數據是否為正態分布——某些機器學習模型很在意數據的分布情況。
在 Matplotlib 中,可以通過繪製直方圖將數據的分布情況可視化。在 Seaborn 中,也提供了繪製直方圖的函數。
輸出結果:
sns.distplot 函數即實現了直方圖,還順帶把曲線畫出來了——曲線其實代表了 KDE。
除了 sns.distplot 之外,在 Seaborn 中還有另外一個常用的繪製數據分布的函數 sns.kdeplot,它們的使用方法類似。
首先看這樣一個示例。
輸出結果:
① 的作用是設置所得圖示的背景顏色,這樣做的目的是讓下面的 ② 繪製的圖像顯示更清晰,如果不設置 ①,在顯示的圖示中看到的就是白底圖像,有的部分看不出來。
② 最終得到的是坐標網格,而且在圖中分為三部分,如下圖所示。
相對於以往的坐標網格,多出了 B 和 C 兩個部分。也就是說,不僅可以在 A 部分繪製某種統計圖,在 B 和 C 部分也可以繪製。
繼續操作:
輸出結果:
語句 ③ 實現了在坐標網格中繪製統計圖的效果,jp.plot 方法以兩個繪圖函數為參數,分別在 A 部分繪製了回歸統計圖,在 B 和 C 部分繪製了直方圖,而且直方圖分別表示了對應坐標軸數據的分布,即:
我們把有語句 ② 和 ③ 共同實現的統計圖,稱為聯合統計圖。除了用 ② ③ 兩句可以繪製這種圖之外,還有一個函數也能夠「兩步並作一步」,具體如下:
輸出結果:
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/303801.html