一、數值變數的summary結果
當我們在R語言中處理數值變數時,summary()函數通常是一個必不可少的分析工具。它可以給我們展示數據的基本統計信息,如最大值、最小值、平均值、中位數等等。下面是一個例子:
data(mtcars)
summary(mtcars)
這個例子中,我們使用了自帶的mtcars數據集。運行這段代碼之後,控制台會輸出整個數據集的summary結果。其中,”Min”, “1st Qu.”, “Median”, “Mean”, “3rd Qu.”, “Max”這七項是最基本的統計信息。他們的含義分別是數據的最小值、第一四分位數、中位數、平均值、第三四分位數和最大值。而”NA’s”,則表示有多少個缺失值。
此外,summary()返回的結果還包括了一個五數概括圖(Five Number Summary),它用於描述數據的中心位置和散布情況。這個圖表的五個參數依次為:最小值、第一四分位數、中位數、第三四分位數和最大值。這五個參數被用來繪製一條盒形圖,從而直觀地展示出數據的統計特徵。可以通過添加參數「plot=TRUE」來繪製五數概括圖。
summary(mtcars, plot = TRUE)
二、因子變數的summary結果
在R語言中,因子變數在實際數據分析中也是非常常見的。與數值變數相比,因子變數的summary()結果輸出的信息更為簡潔。下面是一個例子:
data(iris)
summary(iris$Species)
這個例子中,我們使用了自帶的iris數據集,並對其中的一個因子變數進行了summary()函數的調用。在結果中,R語言給出了該變數的不同取值及其出現的頻數。對於因子變數的summary()結果,我們一般不需要關心中位數之類的統計值。
三、矩陣和數組的summary結果
當我們用R語言處理矩陣和數組時,summary()函數的輸出結果與前兩種情況有所不同。下面是一個例子:
mat <- matrix(rnorm(50), ncol = 5)
dimnames(mat) <- list(paste0("Row", 1:10), paste0("Col", 1:5))
summary(mat)
在這個例子中,我們創建了一個大小為10×5的矩陣,並給它的行、列分別起了命名。運行summary()之後,我們可以看到結果中輸出的是每一列的基本統計信息,包括了每一列的最小值、第一四分位數、中位數、平均值、第三四分位數和最大值。
需要注意的是,當我們使用summary()處理的是多維數組時,summary()函數會展示出每個數組元素在所有維度上的最小值、最大值以及中位數等信息。
四、總結
總的來說,summary()函數是一款非常實用的分析工具,特別是對於初學者來說。通過閱讀summary結果,我們能夠快速了解一個變數的取值分布、基本統計信息和特徵值等等。但是需要注意的是,summary()函數展示的僅僅是基本的統計信息。如果需要更全面的分析,就需要使用其他更強大的分析工具了。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/158324.html