R語言cut函數全面解析

SWLE • 2024-11-01 14:05 • 編程

一、cut函數介紹

cut函數是R語言中常用的一種數據離散化方法，可以將一列數值型數據按照給定的區間進行分組，生成一個factor類型的對象。具體語法格式如下：

cut(x, breaks, labels = NULL, include.lowest = FALSE,
right = TRUE, dig.lab = 3, ordered_result = FALSE, 
...)

其中，參數x表示需要離散化的數據；Breaks表示數據的分組區間，可以設置為一個向量來指定每個區間的上限；Labels表示每個區間對應的標籤，include.lowest表示是否將最小值包含在第一個區間內；right表示每個區間是否包含右端點；dig.lab表示標籤保留的小數位數；ordered_result表示是否將結果有序化。

二、cut函數的使用方法

在使用cut函數時，一般需要先確定分組區間，常用的有兩種方法：

1、指定區間數目

直接指定需要將數據分成的區間數目，可以使用函數「cut_num」獲取相應的區間範圍，示例代碼如下：

# 安裝cut_num函數所在包
install.packages("cutnum")

# 使用cut_num函數獲取分組區間
library(cutnum)
x <- runif(100, 0, 100)
breaks <- cut_num(x, g = 5)

這段代碼會生成一個包含5個區間的向量breaks，表示數據被等分成5份。

2、指定分組區間

手動指定需要將數據分組的區間，可以使用向量的形式來指定每個區間的上限值，示例代碼如下：

# 手動指定分組區間
x <- runif(100, 0, 100)
breaks <- c(0, 20, 50, 80, 100)
labels <- c("A", "B", "C", "D")
factor_x <- cut(x, breaks, labels = labels, include.lowest = TRUE)

這段代碼會將數據分成4個組：”0~20″、”20~50″、”50~80″、”80~100″，並且將每個組指定一個標籤。

三、cut函數的應用

cut函數可以廣泛應用於各種領域，下面我們針對不同的應用場景進行詳細介紹。

1、數據可視化

將數據分組後可以更直觀地反映數據的分布情況，方便進行數據可視化。下面以iris數據集為例，將花瓣長度分為3組，通過直方圖進行可視化展示。

# 導入iris數據集
data(iris)
x <- iris$Petal.Length

# 分組
breaks <- c(0, 3, 4, 7)
labels <- c("short", "medium", "long")
factor_x <- cut(x, breaks, labels = labels, include.lowest = TRUE)

# 繪製直方圖
library(ggplot2)
ggplot(data = data.frame(x = factor_x)) + 
  geom_bar(aes(x = x, fill = x))+ 
  scale_fill_manual(values = c("#FF6666", "#FFCC66", "#99CC66")) + 
  labs(title = "Iris Petal Length", x = "Petal Length", y = "Count")

運行以上代碼，我們可以得到下面的直方圖：

`2、風險評估`

在金融、風險評估等領域，我們常常需要根據數據的風險程度進行分類。例如根據申請人的信用評級將其分為高、中、低三類，進行不同的風險定價。這時候我們就可以使用cut函數來對數據進行離散化，示例代碼如下：

# 載入數據
url <- "https://people.sc.fsu.edu/~jburkardt/datasets/default_of_credit_card_clients/default_of_credit_card_clients.xls"
credit_data <- readxl::read_excel(url, skip = 1)

# 分組
delay_payment <- credit_data$PAY_0
breaks <- c(-Inf, 0, 1, Inf)
labels <- c("good", "medium", "bad")
factor_delay_payment <- cut(delay_payment, breaks, labels = labels, 
                            include.lowest = TRUE, right = FALSE)

# 按數據組別統計比例
table(factor_delay_payment)/length(factor_delay_payment)

運行以上代碼，我們可以看到輸出結果如下：

factor_delay_payment
      good     medium        bad 
0.80413333 0.11830000 0.07756667

結果顯示大部分人的還款情況良好，只有少數人有延遲還款、違約的情況，風險比較低。

`3、機器學習建模`

在進行分類任務時，我們常常需要將連續型特徵轉換為離散型特徵，然後對數據進行機器學習建模。這時候就可以使用cut函數來進行數據離散化，例如對年齡進行分組，示例代碼如下：

# 載入數據
library(dplyr)
heart_data % 
  select(c(age, sex, chest_pain_type, trestbps, chol, thalach, oldpeak, num))

# 將年齡分為5組
breaks <- c(20, 40, 50, 60, 70, 80)
labels <- c("20~39", "40~49", "50~59", "60~69", "70~80")
factor_age <- cut(heart_data$age, breaks, labels = labels, include.lowest = TRUE)

# 添加分組後的年齡列並選取需要的特徵列
heart_data_new % 
  select(c(age, factor_age, sex, chest_pain_type, trestbps, chol, thalach, oldpeak, num))

這段代碼會將數據集中的年齡分為5組，並將分組後的年齡列添加到原數據集中，可以方便地進行後續的機器學習建模。

`四、小結`

在本篇文章中我們詳細介紹了R語言的cut函數，包括其使用方法和應用場景，希望對讀者能夠有所幫助。通過cut函數，我們可以更加靈活地對數據進行離散化處理，在數據可視化、風險評估、機器學習建模等方面都具有廣泛的應用。

原創文章，作者：SWLE，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/147085.html

cut全面函數語言

贊 (0)


 打賞 


微信掃一掃 


支付寶掃一掃



SWLE


 0   0


 生成海報



Python中len函數的用途和功能

 上一篇
2024-11-01 14:05



onshow詳解

下一篇 
2024-11-01 14:05

`相關推薦`

Python中引入上一級目錄中函數
Python中經常需要調用其他文件夾中的模塊或函數，其中一個常見的操作是引入上一級目錄中的函數。在此，我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。一、加入環…
ZFHGV
編程 2025-04-29




Python中capitalize函數的使用 
在Python的字元串操作中，capitalize函數常常被用到，這個函數可以使字元串中的第一個單詞首字母大寫，其餘字母小寫。在本文中，我們將從以下幾個方面對capitalize函…


  OXXKS

編程
2025-04-29



Python應用程序的全面指南 
Python是一種功能強大而簡單易學的編程語言，適用於多種應用場景。本篇文章將從多個方面介紹Python如何應用於開發應用程序。 一、Web應用程序 目前，基於Python的Web…


  EWKEZ

編程
2025-04-29



Python中set函數的作用 
Python中set函數是一個有用的數據類型，可以被用於許多編程場景中。在這篇文章中，我們將學習Python中set函數的多個方面，從而深入了解這個函數在Python中的用途。 一…


  WDEKD

編程
2025-04-29



三角函數用英語怎麼說 
三角函數，即三角比函數，是指在一個銳角三角形中某一角的對邊、鄰邊之比。在數學中，三角函數包括正弦、餘弦、正切等，它們在數學、物理、工程和計算機等領域都得到了廣泛的應用。 一、正弦函…


  HIKPE

編程
2025-04-29



單片機列印函數 
單片機列印是指通過串口或並口將一些數據列印到終端設備上。在單片機應用中，列印非常重要。正確的列印數據可以讓我們知道單片機運行的狀態，方便我們進行調試；錯誤的列印數據可以幫助我們快速…


  ZVMYB

編程
2025-04-29



AES加密解密演算法的C語言實現 
AES（Advanced Encryption Standard）是一種對稱加密演算法，可用於對數據進行加密和解密。在本篇文章中，我們將介紹C語言中如何實現AES演算法，並對實現過程進…


  NDMZX

編程
2025-04-29



Python3定義函數參數類型 
Python是一門動態類型語言，不需要在定義變數時顯示的指定變數類型，但是Python3中提供了函數參數類型的聲明功能，在函數定義時明確定義參數類型。在函數的形參後面加上冒號（:）…


  MUBFX

編程
2025-04-29



學習Python對學習C語言有幫助嗎？ 
Python和C語言是兩種非常受歡迎的編程語言，在程序開發中都扮演著非常重要的角色。那麼，學習Python對學習C語言有幫助嗎？答案是肯定的。在本文中，我們將從多個角度探討Pyth…


  LZXFS

編程
2025-04-29



Python實現計算階乘的函數 
本文將介紹如何使用Python定義函數fact(n),計算n的階乘。 一、什麼是階乘 階乘指從1乘到指定數之間所有整數的乘積。如：5! = 5 * 4 * 3 * 2 * 1 = …


  BRHTK

編程
2025-04-29

`發表回復`

請登錄後評論...

登錄後才能評論