本文将详细介绍如何使用Python加载鸢尾花数据,包括数据源的介绍、数据的获取和清洗、数据可视化等方面。
一、数据源的介绍
鸢尾花数据集(Iris dataset)是常用的分类实验数据集之一,由Fisher于1936年发表。该数据集包含150个样本,分为3类,每类50个样本,每个样本包含4个特征,分别是花萼长度、花萼宽度、花瓣长度、花瓣宽度。数据集中的3个类别分别为Iris Setosa、Iris Versicolour、Iris Virginica。
二、数据的获取和清洗
获取鸢尾花数据的一种方法是使用Python中的scikit-learn库。以下是获取和清洗数据的代码:
from sklearn.datasets import load_iris import pandas as pd import numpy as np iris = load_iris() X = pd.DataFrame(iris.data, columns=iris.feature_names) y = pd.DataFrame(iris.target, columns=['target']) data = pd.concat([X, y], axis=1) data.dropna(inplace=True)
代码解释:
首先,我们使用load_iris()函数从scikit-learn库中加载鸢尾花数据集。然后,我们使用pandas库将数据转换为DataFrame格式,并将特征命名为feature_names,将类别命名为target。最后,我们将特征和类别拼接为一个数据集,并使用dropna()函数清除缺失值。
三、数据可视化
我们可以使用Python中的matplotlib库和seaborn库,将鸢尾花数据可视化。以下代码演示了如何绘制鸢尾花散点图:
import matplotlib.pyplot as plt import seaborn as sns sns.set(style="ticks", color_codes=True) sns.pairplot(data, hue="target") plt.show()
代码解释:
首先,我们使用set()函数设置图形的样式和颜色。然后,我们使用pairplot()函数绘制鸢尾花散点图,其中hue参数表示按照类别标签进行着色。最后,我们使用show()函数显示图形。
四、建立模型
我们可以使用Python中的scikit-learn库,建立一个分类模型来对鸢尾花数据进行分类。以下是示例代码:
from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn.metrics import accuracy_score X = data.iloc[:, :-1] y = data.iloc[:, -1] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) clf = DecisionTreeClassifier() clf.fit(X_train, y_train) y_pred = clf.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print('Accuracy:{:.2f}%'.format(accuracy*100))
代码解释:
我们首先将数据集分为训练集和测试集。然后,我们使用scikit-learn库中的DecisionTreeClassifier()函数建立决策树分类器,并在训练集上进行训练。接着,我们使用predict()函数对测试集进行预测,并使用accuracy_score()函数计算分类器的准确率。最后,我们将准确率输出到控制台。
五、小结
本文介绍了如何使用Python加载鸢尾花数据,包括数据源的介绍、数据获取和清洗、数据可视化以及模型的建立。通过这些操作,我们可以更好地理解和分析鸢尾花数据集,并对其进行分类或预测。
原创文章,作者:ILYRB,如若转载,请注明出处:https://www.506064.com/n/373268.html