sns.load_dataset详解

一、介绍

sns.load_dataset是seaborn库中的一个函数，用于加载自带的数据集，方便用户学习和练习数据分析和可视化。该函数通过传入数据集的名称，返回一个 Pandas 的 DataFrame 类型的数据，其中包含了该数据集的所有属性和信息，并且将其缺失值填充为 NaN。seaborn 库支持的数据集包括 Titanic、Tips、Iris 以及其他一些经典数据集。

二、功能

sns.load_dataset主要用途是帮助用户实现一些操作，比如数据分析，数据可视化等。举个例子，我们可以使用这个函数加载 Iris 数据集并画出散点图：

import seaborn as sns 
import matplotlib.pyplot as plt 
iris_data = sns.load_dataset("iris") 
sns.scatterplot(x="petal_length", y="petal_width", hue="species", data=iris_data) 
plt.show()

通过这个例子，我们可以看到 sns.load_dataset 帮助我们读取了 iris 数据集，并返回一个 DataFrame 类型的数据，我们将其放入 seaborn 的另外一个函数 scatterplot 中，使得我们可以画出 scatter plot。这个 scatter plot 可以帮助我们分析 iris 数据集的三个种类之间的关系。

三、参数介绍

sns.load_dataset 函数有一个参数，即 dataset 名称：

name：数据集名称，字符串类型参数，必需。数据集名称在 seaborn 库中是固定的，常见的有：”iris”, “tips”, “titanic” 等。

四、应用实例

1. Titanic Dataset 可视化

Titanic 数据集是描述 1912 年 Titanic 号沉船事件的数据集，包含了船上 2224 人的个人信息，包括他们的姓名、年龄、性别和票价等。我们可以使用 seaborn 和 matplotlib 库对该数据集进行可视化。

import seaborn as sns 
import matplotlib.pyplot as plt 
titanic_data = sns.load_dataset("titanic") 
# 使用Seaborn库对数据进行可视化 
sns.countplot(x="class", data=titanic_data) 
plt.show()

以上代码会输出一个直方图，横轴为 1、 2、 3 三等舱的数量，纵轴为数量，可以很好地观测 Titanic 中各舱人数的差异。

2. 统计 Iris Dataset

Iris 数据集是一个经典的花卉数据集，它包含了三种不同的花，即山鸢尾、变色鸢尾和维尔吉尼亚鸢尾，每种花有 50 个样本。该数据集是通过花卉的萼片（sepel）和花瓣（petal）长度和宽度来进行分类的。我们可以使用 sns.load_dataset 和 Pandas 库进行统计。

import seaborn as sns 
import pandas as pd 
iris_data = sns.load_dataset("iris") 
# 用 Pandas 库得到 features 和 Species 的值（也可以直接使用 Pandas 读取这个文件） 
features = iris_data.iloc[:, :-1].values 
species = iris_data.iloc[:, -1].values 
# 分析样本的长度、宽度、平均值、最小值、最大值和标准差 
mean_features = pd.DataFrame(features).mean() 
min_features = pd.DataFrame(features).min() 
max_features = pd.DataFrame(features).max() 
std_features = pd.DataFrame(features).std() 
print("Iris Dataset 列属性平均值:\n", mean_features) 
print("Iris Dataset 列属性最小值:\n", min_features) 
print("Iris Dataset 列属性最大值:\n", max_features) 
print("Iris Dataset 列属性标准差:\n", std_features)

运行以上代码，我们可以看到 Iris Dataset 的各项指标。

3. 带标签的 Scatter Plot

我们可以使用 sns.load_dataset 和 seaborn 库帮助我们分析出三类花在一些属性上的表现，并且用标签来表示三类花的名称。

import seaborn as sns 
import matplotlib.pyplot as plt 
iris_data = sns.load_dataset("iris") 
# 对Iris数据集进行scatter plot分析 
sns.scatterplot(x="petal_width", y="petal_length", hue="species", data=iris_data) 
plt.show()

这段代码将花瓣的长度和宽度作为x和y轴值，颜色由花的种类（setosa，versicolor，virginica）决定。这个散点图给人一种花尺寸和形状之间联系的印象。

原创文章，作者：小蓝，如若转载，请注明出处：https://www.506064.com/n/181830.html