详解datasets.load_iris()

一、前言

在机器学习领域中,常见的操作之一是数据集的预处理。datasets.load_iris()是机器学习领域中提供的一种常用数据集,它是一个有关鸢尾花的数据集。本文将从多个方面对datasets.load_iris()进行详细的阐述,希望能够帮助读者更好地理解该数据集。

二、数据集概述

数据集是指一组数据实例的集合。在机器学习领域中,数据集通常用于训练和测试模型。datasets.load_iris()数据集是一个包含150个数据实例的数据集,每个数据实例包含该鸢尾花的4个属性,以及该鸢尾花所属的品种。该数据集共有3中不同的品种,每个品种有50个数据实例。

    from sklearn.datasets import load_iris
    iris = load_iris()
    print(iris.keys())
    #dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])

首先我们需要导入load_iris()模块,然后我们可以通过打印iris.keys()来确定该数据集中包含的所有信息。运行代码后,可以看到该数据集中包含以下6个键值:

  • ‘data’:一个150×4的numpy数组,包含150个数据实例的属性值;
  • ‘target’:一个长度为150的numpy数组,包含每个数据实例所属的品种;
  • ‘target_names’:一个长度为3的numpy数组,包含每个品种的名称;
  • ‘DESCR’:一个字符串,包含该数据集的说明文档;
  • ‘feature_names’:一个长度为4的numpy数组,包含每个属性的名称;
  • ‘filename’:一个字符串,包含该数据集存储的文件名。

三、数据集属性

在使用datasets.load_iris()数据集时,我们需要了解该数据集的每个属性的含义。以下是每个属性的详细介绍:

1. ‘data’

‘data’属性是一个包含150个数据实例的150×4 numpy数组。每个数据实例包含以下4个属性:

  • 萼片长度(cm)
  • 萼片宽度(cm)
  • 花瓣长度(cm)
  • 花瓣宽度(cm)
    print(iris['data'])
    #[[5.1 3.5 1.4 0.2]
    # [4.9 3.  1.4 0.2]
    # [4.7 3.2 1.3 0.2]
    # ...
    # [6.5 3.  5.2 2. ]
    # [6.2 3.4 5.4 2.3]
    # [5.9 3.  5.1 1.8]]

2. ‘target’

‘target’属性是一个包含150个数据实例的长度为150的numpy数组。每个数据实例所属的品种标签是从0到2的一个整数,分别表示以下品种:

  • 0:山鸢尾花(Iris setosa)
  • 1:变色鸢尾花(Iris versicolor)
  • 2:维吉尼亚鸢尾花(Iris virginica)
    print(iris['target'])
    #[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
    # 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
    # 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2
    # 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]

3. ‘target_names’

‘target_names’属性是一个包含3个目标类标签的numpy数组,分别表示以下品种:

  • 0:山鸢尾花(Iris setosa)
  • 1:变色鸢尾花(Iris versicolor)
  • 2:维吉尼亚鸢尾花(Iris virginica)
    print(iris['target_names'])
    #['setosa' 'versicolor' 'virginica']

4. ‘DESCR’

‘DESCR’属性是一个字符串,包含该数据集的详细描述信息。

    print(iris['DESCR'])
    #Iris Plants Database
    #====================
    #
    #Notes
    #-----
    #Data Set Characteristics:
    #    :Number of Instances: 150 (50 in each of three classes)
    #    :Number of Attributes: 4 numeric, predictive attributes and the class
    #    :Attribute Information:
    #        - sepal length in cm
    #        - sepal width in cm
    #        - petal length in cm
    #        - petal width in cm
    #        - class:
    #                - Iris Setosa
    #                - Iris Versicolour
    #                - Iris Virginica
    #    :Summary Statistics:
    #    ...

5. ‘feature_names’

‘feature_names’属性是一个包含4个属性名称的numpy数组,分别是:(‘sepal length (cm)’, ‘sepal width (cm)’, ‘petal length (cm)’, ‘petal width (cm)’)

    print(iris['feature_names'])
    #['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

四、数据集应用

数据集是机器学习领域中不可或缺的部分之一。使用datasets.load_iris()数据集可以对分类问题进行训练和测试。以下是一个数据集的使用示例,使用了train_test_split将数据集分成了训练集和测试集:

    from sklearn.datasets import load_iris
    from sklearn.model_selection import train_test_split
    
    iris = load_iris()
    X = iris.data
    y = iris.target
    
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

上述代码中,我们首先导入load_iris()模块。然后,我们将整个数据集的数据部分(’data’)赋给X,将整个数据集的目标变量部分(’target’)赋给y。接下来,我们使用train_test_split将数据集分为训练集和测试集。在这个例子中,数据集被分为80%的训练集和20%的测试集。

五、结语

本文对datasets.load_iris()数据集进行了深入的介绍,包括数据集概述、数据集属性和数据集应用。此外,我们也提供了一个使用数据集的示例。希望本文能够对读者在机器学习领域有所帮助。

原创文章,作者:HJBC,如若转载,请注明出处:https://www.506064.com/n/135441.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
HJBC的头像HJBC
上一篇 2024-10-04 00:12
下一篇 2024-10-04 00:12

相关推荐

  • 神经网络代码详解

    神经网络作为一种人工智能技术,被广泛应用于语音识别、图像识别、自然语言处理等领域。而神经网络的模型编写,离不开代码。本文将从多个方面详细阐述神经网络模型编写的代码技术。 一、神经网…

    编程 2025-04-25
  • Linux sync详解

    一、sync概述 sync是Linux中一个非常重要的命令,它可以将文件系统缓存中的内容,强制写入磁盘中。在执行sync之前,所有的文件系统更新将不会立即写入磁盘,而是先缓存在内存…

    编程 2025-04-25
  • C语言贪吃蛇详解

    一、数据结构和算法 C语言贪吃蛇主要运用了以下数据结构和算法: 1. 链表 typedef struct body { int x; int y; struct body *nex…

    编程 2025-04-25
  • git config user.name的详解

    一、为什么要使用git config user.name? git是一个非常流行的分布式版本控制系统,很多程序员都会用到它。在使用git commit提交代码时,需要记录commi…

    编程 2025-04-25
  • Java BigDecimal 精度详解

    一、基础概念 Java BigDecimal 是一个用于高精度计算的类。普通的 double 或 float 类型只能精确表示有限的数字,而对于需要高精度计算的场景,BigDeci…

    编程 2025-04-25
  • Linux修改文件名命令详解

    在Linux系统中,修改文件名是一个很常见的操作。Linux提供了多种方式来修改文件名,这篇文章将介绍Linux修改文件名的详细操作。 一、mv命令 mv命令是Linux下的常用命…

    编程 2025-04-25
  • Python安装OS库详解

    一、OS简介 OS库是Python标准库的一部分,它提供了跨平台的操作系统功能,使得Python可以进行文件操作、进程管理、环境变量读取等系统级操作。 OS库中包含了大量的文件和目…

    编程 2025-04-25
  • Python输入输出详解

    一、文件读写 Python中文件的读写操作是必不可少的基本技能之一。读写文件分别使用open()函数中的’r’和’w’参数,读取文件…

    编程 2025-04-25
  • 详解eclipse设置

    一、安装与基础设置 1、下载eclipse并进行安装。 2、打开eclipse,选择对应的工作空间路径。 File -> Switch Workspace -> [选择…

    编程 2025-04-25
  • nginx与apache应用开发详解

    一、概述 nginx和apache都是常见的web服务器。nginx是一个高性能的反向代理web服务器,将负载均衡和缓存集成在了一起,可以动静分离。apache是一个可扩展的web…

    编程 2025-04-25

发表回复

登录后才能评论