一、UCI數據集
UCI是R語言自帶的一個數據集包,裡面包含了多個數據集,每個數據集都賦予了它的任務和數據類型,下面選取其中兩個數據集進行介紹:Iris和Wine。通過這兩個數據集,可以體驗到使用R語言進行數據處理和可視化的樂趣。
1、Iris數據集
Iris數據集包含三種不同的鳶尾花(Iris setosa,Iris virginica和Iris versicolor)的150個樣本的花萼和花瓣的長度和寬度的測量值。這是一個經典的分類問題,我們可以使用各種機器學習演算法來嘗試對不同種類的鳶尾花進行分類。以下是如何在R中讀取和可視化Iris數據集:
library(datasets)
head(iris) #展示前幾行
plot(iris$Sepal.Length, iris$Petal.Length, col = iris$Species, pch = 19) # 根據品種繪製花萼和花瓣長度
2、Wine數據集
Wine數據集包含三種不同來源的義大利葡萄酒(Class 1,Class 2和Class 3),每個類別有13個不同的屬性(包括Alcohol,Malic酸和Ash數量等)。以下是如何在R中讀取和可視化Wine數據集:
library(datasets)
head(wine) #展示前幾行
pairs(wine[,1:3], #根據來源為不同的類別賦予顏色
col=as.numeric(factor(wine$Class)),
pch=19, cex=1.2)
二、MASS數據集
MASS是另一個R語言自帶的數據集包,包含了多個數據集,其中的一些數據集,如Boston和BostonHousing,是我們可以在房地產和金融方面使用的有用數據。以下是如何使用這些數據集:
1、Boston數據集
Boston數據集包含1970年代波士頓市25個城市區的一些詳細信息(例如,犯罪率,空氣質量,學生教師比例等)以及每個區域的房價中位數。以下是如何在R中讀取和可視化Boston數據集:
library(MASS)
head(Boston) #展示前幾行
pairs(Boston[,1:3],col=as.numeric(factor(Boston$rad)),pch=19, cex=1.2) #只展示前三列,並以rad為顏色分段
2、BostonHousing數據集
BostonHousing數據集是一種用於研究回歸分析和預測建模的數據集。它是由公開互聯網上的美國麻塞諸塞州Housing評估的城市區域得出的數據。數據集包含506個樣本,13個輸入變數以及每個城市區域的房價中位數。可以使用該數據集進行回歸分析和建模工作,以預測不同城市區域的房價中位數。以下是如何在R中讀取和可視化BostonHousing數據集:
library(MASS)
head(BostonHousing) #展示前幾行
pairs(BostonHousing[,1:3],col=as.numeric(factor(BostonHousing$chas)),pch=19, cex=1.2) #只展示前三列,並以chas為顏色分段
三、總結
R語言自帶的數據集為我們分析和展示數據提供了非常便捷的工具,我們可以通過數據集了解各種學科和領域的數據特徵,同時可以將這些數據應用於數據挖掘、機器學習和統計分析等實踐項目中。
原創文章,作者:RJID,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/136415.html