一、基本概念
描述性統計分析指的是對數據集中每一個變量的基本情況進行統計描述,包括中心位置、離散程度、分布形態等。在R語言中,我們可以使用多種函數進行描述性統計分析,包括summary()、mean()、median()、sd()等。
下面以mtcars數據集為例,展示各個函數的用法:
data(mtcars) summary(mtcars) # 總體概覽 mean(mtcars$mpg) # 平均值 median(mtcars$mpg) # 中位數 sd(mtcars$mpg) # 標準差
二、中心位置的度量
中心位置度量的指標包括均值、中位數和眾數。均值計算簡單,但容易受到極端值的影響;中位數則比較魯棒,能更好地反映數據集的集中程度。在R語言中,我們可以使用mean()和median()函數計算均值和中位數。
mean(mtcars$mpg) # 計算mpg變量的均值 median(mtcars$mpg) # 計算mpg變量的中位數
眾數代表出現次數最多的數值,可以使用mode()函數計算,但R語言中並不存在這個函數。我們可以自己寫一個函數來計算眾數:
mode <- function(x) { ux <- unique(x) ux[which.max(tabulate(match(x, ux)))] } mode(mtcars$mpg) # 計算mpg變量的眾數
三、離散程度的度量
離散程度度量的指標包括極差、方差、標準差和變異係數。極差是最大值與最小值的差,而方差、標準差和變異係數則分別衡量着數據集的離散程度。在R語言中,我們可以使用range()、var()、sd()和cv()函數計算這些指標。
range(mtcars$mpg) # 計算mpg變量的極差 var(mtcars$mpg) # 計算mpg變量的方差 sd(mtcars$mpg) # 計算mpg變量的標準差 cv <- function(x) sd(x)/mean(x)*100 cv(mtcars$mpg) # 計算mpg變量的變異係數
四、分布形態的度量
分布形態的度量指標包括偏度和峰度。偏度旨在衡量數據分布的對稱性,取值範圍為-1至1,正值意味着數據偏右,而負值意味着數據偏左;而峰度則是衡量數據分布的峰態程度,取值範圍為0至正無窮。在R語言中,我們可以使用skewness()和kurtosis()函數計算偏度和峰度。
library(moments) skewness(mtcars$mpg) # 計算mpg變量的偏度 kurtosis(mtcars$mpg) # 計算mpg變量的峰度
五、異常值的檢測與處理
異常值(outliers)指的是與數據集中大部分數值差異很大的數值。在描述性統計分析中,我們需要儘可能地排除異常值的干擾,以更好地反映數據集的真實情況。在R語言中,我們可以使用outlierTest()函數、boxplot()函數和hist()函數來檢測和處理異常值。
library(car) outlierTest(mtcars[, 1:6]) # 檢測異常值 boxplot(mtcars$mpg) # 畫出mpg變量的箱線圖 hist(mtcars$mpg) # 畫出mpg變量的直方圖
原創文章,作者:GVELO,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/372293.html