用Python编写函数加载和预处理手写数字数据集

一、数据集介绍

手写数字数据集(MNIST)是一个非常有名的数据集,里面包含了一组由0到9手写数字的图像数据集。这个数据集被用来测试数字分类算法的效果。MNIST数据集可从Yann Lecun网站下载。

该数据集包含了训练用的60000个样本和测试用的10000个样本,每个样本是一个28*28的大小的灰度图像,可将其看做矩阵或二维数组。

二、加载MNIST数据集

在Python中,可以使用如下代码来将MNIST数据集加载到Python环境中:

from sklearn.datasets import fetch_openml

mnist = fetch_openml('mnist_784', version=1, as_frame=False)
X = mnist.data
y = mnist.target

这段代码中,我们使用scikit-learn库中的fetch_openml函数,从名称为mnist_784的数据集中加载MNIST数据集,将数据作为NumPy数组的形式并将其存储在变量X中。同时,我们还将对应的标签存储在变量y中。

需要注意的是,我们使用as_frame=False参数来确保将数据和标签作为NumPy数组返回。

三、预处理MNIST数据集

1. 像素值归一化

对于图像分类任务,数据预处理通常是一个必要的环节,为了提高模型的性能,MNIST数据集也不例外。

对于像素值而言,很多算法对像素值范围更加敏感,而MNIST数据集中的像素值是介于0和255之间,因此我们需要将像素值归一化到0到1之间。

以下代码片段将像素值除以255来完成归一化:

X = X/255.0

2. 单位化标签

为了更好地使用数据标签,应将每个标签以单位向量形式表示。

具体而言,我们可以使用一个长度为10的向量来表示一个标签,其中仅有对应的索引处为1,其余位置均为0。

例如,标签4可以被表示为[0,0,0,0,1,0,0,0,0,0]。

以下代码片段将标签转换为单位向量的形式:

import numpy as np

y = y.astype(np.int)
n_classes = 10
y_one_hot = np.zeros((y.shape[0], n_classes))
y_one_hot[np.arange(y.shape[0]), y] = 1
y = y_one_hot

四、代码示例

以下代码是完整的加载和预处理MNIST手写数字数据集的示例:

from sklearn.datasets import fetch_openml
import numpy as np

mnist = fetch_openml('mnist_784', version=1, as_frame=False)
X = mnist.data
X = X/255.0 # 归一化
y = mnist.target.astype(np.int) # 类型转换
n_classes = 10
y_one_hot = np.zeros((y.shape[0], n_classes))
y_one_hot[np.arange(y.shape[0]), y] = 1 # 单位化
y = y_one_hot

五、总结

在这篇文章中,我们使用Python编写函数来加载和预处理手写数字数据集。我们首先介绍了MNIST数据集的基本信息,然后详细讲解了如何使用scikit-learn库中的fetch_openml函数来加载数据集,并对其进行一些基本的预处理,例如像素值归一化和标签的单位化向量表示。这些简单的预处理步骤不仅可以提高算法性能,也可以加速算法的收敛速度。

原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/279733.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小蓝小蓝
上一篇 2024-12-20 15:05
下一篇 2024-12-20 15:05

相关推荐

  • Python中引入上一级目录中函数

    Python中经常需要调用其他文件夹中的模块或函数,其中一个常见的操作是引入上一级目录中的函数。在此,我们将从多个角度详细解释如何在Python中引入上一级目录的函数。 一、加入环…

    编程 2025-04-29
  • Java Bean加载过程

    Java Bean加载过程涉及到类加载器、反射机制和Java虚拟机的执行过程。在本文中,将从这三个方面详细阐述Java Bean加载的过程。 一、类加载器 类加载器是Java虚拟机…

    编程 2025-04-29
  • Python中capitalize函数的使用

    在Python的字符串操作中,capitalize函数常常被用到,这个函数可以使字符串中的第一个单词首字母大写,其余字母小写。在本文中,我们将从以下几个方面对capitalize函…

    编程 2025-04-29
  • Python读取CSV数据画散点图

    本文将从以下方面详细阐述Python读取CSV文件并画出散点图的方法: 一、CSV文件介绍 CSV(Comma-Separated Values)即逗号分隔值,是一种存储表格数据的…

    编程 2025-04-29
  • QML 动态加载实践

    探讨 QML 框架下动态加载实现的方法和技巧。 一、实现动态加载的方法 QML 支持从 JavaScript 中动态指定需要加载的 QML 组件,并放置到运行时指定的位置。这种技术…

    编程 2025-04-29
  • Python循环符合要求数字求和

    这篇文章将详细介绍如何通过Python循环符合要求数字求和。如果你想用Python求和但又不想手动输入数字,那么本文将是一个不错的选择。 一、使用while循环实现求和 sum =…

    编程 2025-04-29
  • Python中set函数的作用

    Python中set函数是一个有用的数据类型,可以被用于许多编程场景中。在这篇文章中,我们将学习Python中set函数的多个方面,从而深入了解这个函数在Python中的用途。 一…

    编程 2025-04-29
  • Python中读入csv文件数据的方法用法介绍

    csv是一种常见的数据格式,通常用于存储小型数据集。Python作为一种广泛流行的编程语言,内置了许多操作csv文件的库。本文将从多个方面详细介绍Python读入csv文件的方法。…

    编程 2025-04-29
  • 单片机打印函数

    单片机打印是指通过串口或并口将一些数据打印到终端设备上。在单片机应用中,打印非常重要。正确的打印数据可以让我们知道单片机运行的状态,方便我们进行调试;错误的打印数据可以帮助我们快速…

    编程 2025-04-29
  • 三角函数用英语怎么说

    三角函数,即三角比函数,是指在一个锐角三角形中某一角的对边、邻边之比。在数学中,三角函数包括正弦、余弦、正切等,它们在数学、物理、工程和计算机等领域都得到了广泛的应用。 一、正弦函…

    编程 2025-04-29

发表回复

登录后才能评论