一、summarystatistics的定義
summarystatistics是R語言中一個非常常用的函數。這個函數能夠方便地計算一個數據集的基本描述統計量,如均值、中位數、標準差、最小值和最大值等。該函數返回的結果是一個包含基本描述統計量的大量信息的數據框。這個函數用起來非常簡單,只需引入一個數據集,然後調用該函數即可。
二、基本用法
summarystatistics的基本用法如下:
# 引入數據集
data(mtcars)
# 使用summarystatistics計算基本描述統計量
summary(mtcars)
上述代碼將返回以下結果:
mpg cyl disp hp
Min. :10.40 Min. :4.000 Min. : 71.1 Min. : 52.0
1st Qu.:15.43 1st Qu.:4.000 1st Qu.:120.8 1st Qu.: 96.5
Median :19.20 Median :6.000 Median :196.3 Median :123.0
Mean :20.09 Mean :6.188 Mean :230.7 Mean :146.7
3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:326.0 3rd Qu.:180.0
Max. :33.90 Max. :8.000 Max. :472.0 Max. :335.0
drat wt qsec vs
Min. :2.760 Min. :1.513 Min. :14.50 Min. :0.0000
1st Qu.:3.080 1st Qu.:2.581 1st Qu.:16.89 1st Qu.:0.0000
Median :3.695 Median :3.325 Median :17.71 Median :0.0000
Mean :3.597 Mean :3.217 Mean :17.85 Mean :0.4375
3rd Qu.:3.920 3rd Qu.:3.610 3rd Qu.:18.90 3rd Qu.:1.0000
Max. :4.930 Max. :5.424 Max. :22.90 Max. :1.0000
am gear carb
Min. :0.0000 Min. :3.000 Min. :1.000
1st Qu.:0.0000 1st Qu.:3.000 1st Qu.:2.000
Median :0.0000 Median :4.000 Median :2.000
Mean :0.4062 Mean :3.688 Mean :2.812
3rd Qu.:1.0000 3rd Qu.:4.000 3rd Qu.:4.000
Max. :1.0000 Max. :5.000 Max. :8.000
三、參數介紹
1. na.rm參數
summarystatistics中有一個非常常用的參數是na.rm,它主要用來在計算描述統計量時忽略含有缺失值的觀測值。例如,在以下代碼中,對於含有NA值的變量hp和qsec,na.rm參數被設置為TRUE,這意味着在計算基本描述統計量時不考慮這些含NA值的觀測值。
# 引入數據集
data(mtcars)
# 使用summarystatistics計算基本描述統計量
summary(mtcars$hp,na.rm=T)
summary(mtcars$qsec,na.rm=T)
2. 精度控制參數digits
在默認情況下,summarystatistics函數的輸出精度是較高的,如小數點後有3到4個數字。如果需要控制精度,可以使用參數digits。digits指定要在輸出中使用多少位數字。例如:
# 引入數據集
data(mtcars)
#使用summarystatistics計算基本描述統計量,控制精度為2
summary(mtcars,digits=2)
四、分組summaries
summarystatistics還可以非常方便地生成按組分組的描述統計信息。通過構建分組變量,可以對數據進行分組,並根據每個組計算描述統計量。例如,我們可以按擋位(am)和汽車品牌(cyl)兩個變量分組計算基本描述統計量:
# 引入數據集
data(mtcars)
# 轉換am變量為Categorical變量
mtcars$am% group_by(am,cyl) %>% summarise(mean=mean(mpg),sd=sd(mpg),min=min(mpg),max=max(mpg),n=n())
五、迭代器(apply)應用
summarystatistics可以非常方便地與迭代器(apply)功能結合使用。例如,我們可以使用lapply函數在多列數據上生成描述統計信息:
# 引入數據集
data(mtcars)
# 使用lapply函數在多列上生成描述統計量
lapply(mtcars[c('mpg','disp','drat')],summary)
六、結語
通過本文,我們詳細闡述了summarystatistics函數的定義、基本用法和參數介紹。我們還向你展示了如何按組生成描述統計信息以及如何將summarystatistics與迭代器功能結合使用。相信通過這篇文章,你已經對summarystatistics函數有了深入的理解。
原創文章,作者:GUON,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/136062.html
微信掃一掃
支付寶掃一掃