一、Pearson軟體
Pearsonr是數據分析中常用的相關係數計算工具,這個軟體的全稱叫做Pearson correlation coefficient,用Unicode表示就是ρ(X,Y)。在Python中,我們可以使用SciPy和NumPy這兩個科學計算庫來計算出數據集中的Pearson相關係數。
二、Pearson如何使用
為了更好地理解Pearson相關性,我們舉一個例子。假設我們有兩個數據集,一個是BMI(身體質量指數),另一個是血糖水平。我們要分析這兩個數據集之間是否存在相關性。以下是Python代碼實現:
import numpy as np from scipy.stats import pearsonr # 創建兩個數據集 BMI = np.array([22.0, 21.5, 23.2, 24.5, 25.1, 24.0, 22.5, 23.5]) BloodSugar = np.array([85.0, 82.0, 89.0, 92.0, 95.0, 91.0, 87.0, 90.0]) # 計算Pearson相關係數 corr, _ = pearsonr(BMI, BloodSugar) print('Pearson correlation coefficient: %.3f' % corr)
運行後,控制台會輸出數據集的Pearson相關係數。這說明BMI和血糖水平之間存在正相關關係。
三、Pearson熱力圖
Pearson相關係數還可以用來生成熱力圖。下面的Python代碼使用Seaborn和Pandas庫生成一個熱力圖,該圖可視化了匿名患者的腫瘤數據集中的所有變數之間的關係:
import pandas as pd import seaborn as sns # 導入數據集 df = sns.load_dataset("titanic") # 選取需要的數據列 data = df[['survived', 'pclass', 'age', 'fare']] # 計算Pearson相關係數 corr = data.corr() # 繪製熱力圖 sns.heatmap(corr, annot=True, cmap="YlGnBu")
運行後,我們將獲得一張熱力圖,其中顏色表示變數之間的相關性,annot參數為True表示將數字寫入單元格中.
四、Pearson認證的證書
為了獲得對數據分析和Pearson相關性更深入的理解,可以獲得Pearson認證的證書。Pearson公司提供的測試涵蓋各種主題,例如常見的統計學問題、在線評估和Pearson相關係數的應用。您可以邊學邊做題,對自己的知識進行測試,並且還可以在社區中一起分享、學習和積累經驗。
以下是Pearson認證頁面的截圖,您可以進入該頁面查看相關信息。
五、結論
Pearson相關係數是一個非常有用的統計量,可用於分析兩個變數之間的關係。Python中的SciPy和NumPy庫提供了計算Pearson相關係數的功能,而Seaborn和Pandas庫則提供了可視化這些數據的工具。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/302971.html