R語言數據分析案例詳解

一、數據獲取

數據獲取是進行數據分析的第一步，數據可以從各種渠道獲取：數據庫、文件等。以銷售數據為例，我們可以從公司的數據庫中獲取銷售數據，也可以通過Excel表格或CSV文件導入R環境中。

1.從文件中讀取數據


#讀取Excel表格
library(openxlsx)
sales_data <- read.xlsx("sales.xlsx", sheet = "Sheet1")

#讀取CSV文件
sales_data <- read.csv("sales.csv")

2.從數據庫中讀取數據


#連接數據庫
library(RMySQL)
con <- dbConnect(MySQL(), user= "root", password = "123456",
               dbname = "sales_db", host = "localhost")

#讀取數據
sales_data <- dbGetQuery(con, "SELECT * FROM sales")
dbDisconnect(con)

二、數據清洗

數據清洗是指對數據進行預處理和數據清洗，如數據去重、處理缺失值等。在實際應用中，由於數據來源不同，數據清洗的方法也不同。

1.處理缺失值

缺失值是指數據集中出現的某些數據缺失的情況。在R語言中，NA代表缺失值。我們可以通過R語言的內置函數is.na()來檢查缺失值，並用mean()函數、median()函數等方法進行填充。


#檢查缺失值
sum(is.na(sales_data))

#填充缺失值
sales_data[is.na(sales_data)] <- mean(sales_data, na.rm = TRUE)

2.去重

在進行數據分析時，數據中可能存在重複數據。我們可以使用R語言內置函數duplicated()和unique()來檢查和刪除重複的數據。


#檢查重複
sum(duplicated(sales_data))

#刪除重複
sales_data <- unique(sales_data)

三、數據分析

通過數據清洗，我們得到了一份乾淨的數據集。接下來，我們可以使用各種數據分析方法來探索數據、找出規律。

1.數據可視化

數據可視化是非常有用的數據分析手段。我們可以使用ggplot2包來繪製各種圖表：散點圖、柱狀圖、餅圖等等，以便更好地理解數據的分布和趨勢。


#導入ggplot2包
library(ggplot2)

#繪製散點圖
ggplot(sales_data, aes(x = sales_amount, y = profit)) + 
  geom_point()

#繪製柱狀圖
ggplot(sales_data, aes(x = product_type, y = sales_amount)) + 
  geom_bar(stat = "identity")

#繪製餅圖
ggplot(sales_data, aes(x = "", fill = region)) + 
  geom_bar(width=1) + 
  coord_polar(theta = "y")

2.回歸分析

回歸分析可以用來預測因變量與自變量的關係。我們可以使用R語言內置函數lm()來進行回歸分析，並使用summary()函數來顯示分析報告。


#簡單線性回歸
model <- lm(profit ~ sales_amount, data = sales_data)
summary(model)

#多元線性回歸
model <- lm(profit ~ sales_amount + product_type + region, data = sales_data)
summary(model)

四、結論

通過數據獲取、數據清洗和數據分析，我們可以更好地理解數據、找出規律、作出預測，並使用各種技術來幫助我們得出正確的結論。

原創文章，作者：JBTLI，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/369416.html