R語言數據分析案例

一、數據獲取和清洗

數據獲取是數據分析的前提，數據質量的高低也直接影響到分析結果的準確性。因此，對於數據分析項目來說，數據獲取和清洗是相當重要的環節。

以某電商平台上一段時間內的銷售數據為例，我們先使用read.csv()函數讀取數據。

sales_data <- read.csv("sales_data.csv", header = TRUE, stringsAsFactors = FALSE)

其中，header = TRUE表示第一行包含列名，stringsAsFactors = FALSE表示不將字元型變數轉為因子變數。

讀取數據後，我們可以使用str()和summary()函數查看數據的基本情況，並進行初步的清洗。

str(sales_data)
summary(sales_data)

# 過濾掉缺失值和重複值
sales_data <- na.omit(sales_data)
sales_data <- unique(sales_data)

在清洗完數據後，我們還可以使用dplyr包中的group_by()和summarize()函數對數據進行匯總統計。

library(dplyr)

# 按照日期和商品類別匯總銷售額和銷售量
sales_summary <- sales_data %>% 
  group_by(date, category) %>% 
  summarize(total_sales = sum(sales), total_quantity = sum(quantity))

二、數據可視化

數據可視化是數據分析過程中不可或缺的一環，通過圖表直觀地展示數據，有助於更好地進行分析和結論的得出。

我們可以使用ggplot2包來繪製各種類型的圖表，如散點圖、折線圖、柱狀圖等。

library(ggplot2)

# 繪製銷售額隨時間變化的折線圖
ggplot(sales_summary, aes(x = date, y = total_sales, color = category)) + 
  geom_line() + 
  labs(title = "銷售額隨時間變化", x = "日期", y = "銷售額")

另外，為了更好地理解數據，我們也可以使用互動式圖表庫plotly來繪製互動式圖表。

library(plotly)

# 繪製商品銷售量和銷售額的散點圖
plot_ly(sales_summary, x = ~total_quantity, y = ~total_sales, color = ~category, mode = "markers", text = ~paste("日期：", date)) %>% 
  layout(title = "商品銷售量和銷售額", xaxis = list(title = "銷售量"), yaxis = list(title = "銷售額"))

三、數據分析

數據分析是數據分析項目最為核心的部分，也是得出結論的關鍵環節。數據分析可以採用各種統計方法和機器學習演算法，對數據進行探索性分析、建模和預測等操作。

以對某品牌消費者行為的分析為例，我們可以首先使用ggplot2繪製品牌銷售額和銷售量隨時間變化的折線圖，並進行趨勢分析和周期分析。

# 繪製品牌銷售額和銷售量隨時間變化的折線圖
ggplot(brand_sales, aes(x = month, y = sales, color = "銷售額")) + 
  geom_line() + 
  geom_point() + 
  geom_smooth(method = "loess") + 
  labs(title = "品牌銷售額和銷售量隨時間變化", x = "月份", y = "銷售額/銷售量") + 
  scale_x_date(date_labels = "%Y.%m.%d") + 
  theme(legend.title = element_blank())

ggplot(brand_sales, aes(x = month, y = quantity, color = "銷售量")) + 
  geom_line() + 
  geom_point() + 
  geom_smooth(method = "loess") + 
  labs(title = "品牌銷售額和銷售量隨時間變化", x = "月份", y = "銷售額/銷售量") + 
  scale_x_date(date_labels = "%Y.%m.%d") + 
  theme(legend.title = element_blank())

另外，我們也可以使用機器學習演算法對數據進行分類和預測。以對用戶購物偏好的分析為例，我們可以使用caret包中的train()和predict()函數來進行建模和預測。

library(caret)

# 數據預處理，將數據轉換為二進位矩陣
purchase_matrix <- as.data.frame.matrix(table(purchase_data$user_id, purchase_data$product_id))
colnames(purchase_matrix) <- paste0("P", colnames(purchase_matrix))
purchase_matrix$User <- rownames(purchase_matrix)
rownames(purchase_matrix) <- 1:nrow(purchase_matrix)

# 將數據集拆分為訓練集和測試集
set.seed(123)
train_index <- createDataPartition(purchase_data$user_id, p = 0.8, list = FALSE)
train_set <- purchase_matrix[train_index,]
test_set <- purchase_matrix[-train_index,]

# 使用kNN演算法進行分類
model_knn <- train(train_set[, -ncol(train_set)], train_set[, ncol(train_set)], method = "knn")
predictions_knn <- predict(model_knn, test_set[, -ncol(test_set)])
confusionMatrix(predictions_knn, test_set[, ncol(test_set)])

以上是 R 語言數據分析案例的幾個環節和方法介紹，還有很多內容涉及到的函數和技術，需要根據實際情況進行選擇和使用。在數據分析項目中，技術和方法只是手段，最根本的目的是為了提高決策的準確性和效率，所以在進行數據分析時，務必要始終緊貼業務場景，注重數據分析結果的質量和實用性。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/200110.html

R語言數據分析案例

一、數據獲取和清洗

二、數據可視化

三、數據分析

相關推薦

發表回復