一、介绍
sns.load_dataset是seaborn库中的一个函数,用于加载自带的数据集,方便用户学习和练习数据分析和可视化。该函数通过传入数据集的名称,返回一个 Pandas 的 DataFrame 类型的数据,其中包含了该数据集的所有属性和信息,并且将其缺失值填充为 NaN。seaborn 库支持的数据集包括 Titanic、Tips、Iris 以及其他一些经典数据集。
二、功能
sns.load_dataset主要用途是帮助用户实现一些操作,比如数据分析,数据可视化等。举个例子,我们可以使用这个函数加载 Iris 数据集并画出散点图:
import seaborn as sns
import matplotlib.pyplot as plt
iris_data = sns.load_dataset("iris")
sns.scatterplot(x="petal_length", y="petal_width", hue="species", data=iris_data)
plt.show()
通过这个例子,我们可以看到 sns.load_dataset 帮助我们读取了 iris 数据集,并返回一个 DataFrame 类型的数据,我们将其放入 seaborn 的另外一个函数 scatterplot 中,使得我们可以画出 scatter plot。这个 scatter plot 可以帮助我们分析 iris 数据集的三个种类之间的关系。
三、参数介绍
sns.load_dataset 函数有一个参数,即 dataset 名称:
- name:数据集名称,字符串类型参数,必需。数据集名称在 seaborn 库中是固定的,常见的有:”iris”, “tips”, “titanic” 等。
四、应用实例
1. Titanic Dataset 可视化
Titanic 数据集是描述 1912 年 Titanic 号沉船事件的数据集,包含了船上 2224 人的个人信息,包括他们的姓名、年龄、性别和票价等。我们可以使用 seaborn 和 matplotlib 库对该数据集进行可视化。
import seaborn as sns
import matplotlib.pyplot as plt
titanic_data = sns.load_dataset("titanic")
# 使用Seaborn库对数据进行可视化
sns.countplot(x="class", data=titanic_data)
plt.show()
以上代码会输出一个直方图,横轴为 1、 2、 3 三等舱的数量,纵轴为数量,可以很好地观测 Titanic 中各舱人数的差异。
2. 统计 Iris Dataset
Iris 数据集是一个经典的花卉数据集,它包含了三种不同的花,即山鸢尾、变色鸢尾和维尔吉尼亚鸢尾,每种花有 50 个样本。该数据集是通过花卉的萼片(sepel)和花瓣(petal)长度和宽度来进行分类的。我们可以使用 sns.load_dataset 和 Pandas 库进行统计。
import seaborn as sns
import pandas as pd
iris_data = sns.load_dataset("iris")
# 用 Pandas 库得到 features 和 Species 的值(也可以直接使用 Pandas 读取这个文件)
features = iris_data.iloc[:, :-1].values
species = iris_data.iloc[:, -1].values
# 分析样本的长度、宽度、平均值、最小值、最大值和标准差
mean_features = pd.DataFrame(features).mean()
min_features = pd.DataFrame(features).min()
max_features = pd.DataFrame(features).max()
std_features = pd.DataFrame(features).std()
print("Iris Dataset 列属性平均值:\n", mean_features)
print("Iris Dataset 列属性最小值:\n", min_features)
print("Iris Dataset 列属性最大值:\n", max_features)
print("Iris Dataset 列属性标准差:\n", std_features)
运行以上代码,我们可以看到 Iris Dataset 的各项指标。
3. 带标签的 Scatter Plot
我们可以使用 sns.load_dataset 和 seaborn 库帮助我们分析出三类花在一些属性上的表现,并且用标签来表示三类花的名称。
import seaborn as sns
import matplotlib.pyplot as plt
iris_data = sns.load_dataset("iris")
# 对Iris数据集进行scatter plot分析
sns.scatterplot(x="petal_width", y="petal_length", hue="species", data=iris_data)
plt.show()
这段代码将花瓣的长度和宽度作为x和y轴值,颜色由花的种类(setosa,versicolor,virginica)决定。这个散点图给人一种花尺寸和形状之间联系的印象。
原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/181830.html