一、什么是DataFrame.head()?
DataFrame是Pandas库中最有名的一个数据类型,它相当于是一个二维的、带标签的数据结构,在处理数据的时候非常方便。DataFrame.head()是Pandas库中一个用来展示数据的函数,它可以快速地返回DataFrame中前几行数据。
import pandas as pd # 创建一个DataFrame data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky', 'Vin', 'Lisa', 'Kate', 'Emma', 'Annie', 'Maggie'], 'Age':[28, 34, 29, 42, 25, 23, 35, 31, 27, 39], 'Sex':['M', 'M', 'M', 'M', 'F', 'F', 'F', 'F', 'F', 'F']} df = pd.DataFrame(data) # 使用.head()展示前3行数据 print(df.head(3))
以上代码中,我们创建了一个包含Name、Age、Sex三个列的DataFrame,然后使用.head()展示了前三行数据。
二、DataFrame.head()函数的参数及应用场景
DataFrame.head()函数可以接受一个整数参数n作为输入,表示返回前n行的数据。如果不传入任何参数,则默认返回前5行的数据。
import pandas as pd # 创建一个DataFrame data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky', 'Vin', 'Lisa', 'Kate', 'Emma', 'Annie', 'Maggie'], 'Age':[28, 34, 29, 42, 25, 23, 35, 31, 27, 39], 'Sex':['M', 'M', 'M', 'M', 'F', 'F', 'F', 'F', 'F', 'F']} df = pd.DataFrame(data) # 使用.head()展示前7行数据 print(df.head(7))
以上代码中,我们使用.head()展示了前7行的数据。
应用场景:在处理大数据集的时候,我们通常只需要查看前几行的数据就可以得到一个大概的了解,DataFrame.head()正好满足这个需求。同时,在数据集较大的情况下,展示整个数据集可能会导致机器卡顿且耗费大量时间,使用.head()可以快速地展示数据,提高效率。
三、展示数据中的某几列
除了展示前几行数据之外,DataFrame.head()还可以结合DataFrame的列索引来展示我们想要的某几列数据。
import pandas as pd # 创建一个DataFrame data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky', 'Vin', 'Lisa', 'Kate', 'Emma', 'Annie', 'Maggie'], 'Age':[28, 34, 29, 42, 25, 23, 35, 31, 27, 39], 'Sex':['M', 'M', 'M', 'M', 'F', 'F', 'F', 'F', 'F', 'F']} df = pd.DataFrame(data) # 使用.head()展示前3行Name和Age两列数据 print(df[['Name','Age']].head(3))
以上代码中,我们使用.head()展示了前3行DataFame中Name和Age两列的数据。
四、DataFrame.head()与数据清洗
在进行数据清洗的时候,我们通常需要查看数据中是否存在脏数据或者缺失数据。使用DataFrame.head()可以帮助我们快速地查看数据中的情况。
import pandas as pd # 创建一个装有数据清洗前的数据集的DataFrame data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky', 'Vin', 'Lisa', 'Kate', 'Emma', 'Annie', 'Maggie'], 'Age':[28, 34, 29, 42, 25, 23, 35, 31, 27, 39], 'Salary':[10000, 15000, 20000, 30000, 17000, 18000, 25000, '', 28000, 15000]} df = pd.DataFrame(data) # 使用.head()展示前5行数据 print(df.head()) # 删除数据清洗中发现的某些数据 df = df.dropna() # 删除空值 df['Salary'] = pd.to_numeric(df['Salary'], errors='coerce') # 将Salary列转换成数值型数据 df = df.dropna() # 再次删除空值 print(df.head()) # 再次使用.head()展示前5行数据
以上代码中,我们创建了一个具有脏数据和缺失值的DataFrame,然后使用DataFrame.head()展示前5行数据。接着,我们对数据进行清洗,包括删除缺失值并将数据类型转换为数值型,最后再使用.head()展示前5行数据。
五、总结
我们可以看到,DataFrame.head()函数在数据的快速展示和数据清洗中都有非常重要的作用。通过本文的介绍,我们可以更加深入地了解到该函数的用法和应用场景。
原创文章,作者:CWON,如若转载,请注明出处:https://www.506064.com/n/148272.html