用Python加载鸢尾花数据

本文将详细介绍如何使用Python加载鸢尾花数据，包括数据源的介绍、数据的获取和清洗、数据可视化等方面。

一、数据源的介绍

鸢尾花数据集（Iris dataset）是常用的分类实验数据集之一，由Fisher于1936年发表。该数据集包含150个样本，分为3类，每类50个样本，每个样本包含4个特征，分别是花萼长度、花萼宽度、花瓣长度、花瓣宽度。数据集中的3个类别分别为Iris Setosa、Iris Versicolour、Iris Virginica。

二、数据的获取和清洗

获取鸢尾花数据的一种方法是使用Python中的scikit-learn库。以下是获取和清洗数据的代码：

from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = pd.DataFrame(iris.target, columns=['target'])

data = pd.concat([X, y], axis=1)
data.dropna(inplace=True)

代码解释：

首先，我们使用load_iris()函数从scikit-learn库中加载鸢尾花数据集。然后，我们使用pandas库将数据转换为DataFrame格式，并将特征命名为feature_names，将类别命名为target。最后，我们将特征和类别拼接为一个数据集，并使用dropna()函数清除缺失值。

三、数据可视化

我们可以使用Python中的matplotlib库和seaborn库，将鸢尾花数据可视化。以下代码演示了如何绘制鸢尾花散点图：

import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="ticks", color_codes=True)
sns.pairplot(data, hue="target")
plt.show()

代码解释：

首先，我们使用set()函数设置图形的样式和颜色。然后，我们使用pairplot()函数绘制鸢尾花散点图，其中hue参数表示按照类别标签进行着色。最后，我们使用show()函数显示图形。

四、建立模型

我们可以使用Python中的scikit-learn库，建立一个分类模型来对鸢尾花数据进行分类。以下是示例代码：

from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

X = data.iloc[:, :-1]
y = data.iloc[:, -1]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:{:.2f}%'.format(accuracy*100))

代码解释：

我们首先将数据集分为训练集和测试集。然后，我们使用scikit-learn库中的DecisionTreeClassifier()函数建立决策树分类器，并在训练集上进行训练。接着，我们使用predict()函数对测试集进行预测，并使用accuracy_score()函数计算分类器的准确率。最后，我们将准确率输出到控制台。

五、小结

本文介绍了如何使用Python加载鸢尾花数据，包括数据源的介绍、数据获取和清洗、数据可视化以及模型的建立。通过这些操作，我们可以更好地理解和分析鸢尾花数据集，并对其进行分类或预测。

原创文章，作者：ILYRB，如若转载，请注明出处：https://www.506064.com/n/373268.html

用Python加载鸢尾花数据

一、数据源的介绍

二、数据的获取和清洗

三、数据可视化

四、建立模型

五、小结

相关推荐

发表回复