一、什麼是DataFrame.head()?
DataFrame是Pandas庫中最有名的一個數據類型,它相當於是一個二維的、帶標籤的數據結構,在處理數據的時候非常方便。DataFrame.head()是Pandas庫中一個用來展示數據的函數,它可以快速地返回DataFrame中前幾行數據。
import pandas as pd # 創建一個DataFrame data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky', 'Vin', 'Lisa', 'Kate', 'Emma', 'Annie', 'Maggie'], 'Age':[28, 34, 29, 42, 25, 23, 35, 31, 27, 39], 'Sex':['M', 'M', 'M', 'M', 'F', 'F', 'F', 'F', 'F', 'F']} df = pd.DataFrame(data) # 使用.head()展示前3行數據 print(df.head(3))
以上代碼中,我們創建了一個包含Name、Age、Sex三個列的DataFrame,然後使用.head()展示了前三行數據。
二、DataFrame.head()函數的參數及應用場景
DataFrame.head()函數可以接受一個整數參數n作為輸入,表示返回前n行的數據。如果不傳入任何參數,則默認返回前5行的數據。
import pandas as pd # 創建一個DataFrame data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky', 'Vin', 'Lisa', 'Kate', 'Emma', 'Annie', 'Maggie'], 'Age':[28, 34, 29, 42, 25, 23, 35, 31, 27, 39], 'Sex':['M', 'M', 'M', 'M', 'F', 'F', 'F', 'F', 'F', 'F']} df = pd.DataFrame(data) # 使用.head()展示前7行數據 print(df.head(7))
以上代碼中,我們使用.head()展示了前7行的數據。
應用場景:在處理大數據集的時候,我們通常只需要查看前幾行的數據就可以得到一個大概的了解,DataFrame.head()正好滿足這個需求。同時,在數據集較大的情況下,展示整個數據集可能會導致機器卡頓且耗費大量時間,使用.head()可以快速地展示數據,提高效率。
三、展示數據中的某幾列
除了展示前幾行數據之外,DataFrame.head()還可以結合DataFrame的列索引來展示我們想要的某幾列數據。
import pandas as pd # 創建一個DataFrame data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky', 'Vin', 'Lisa', 'Kate', 'Emma', 'Annie', 'Maggie'], 'Age':[28, 34, 29, 42, 25, 23, 35, 31, 27, 39], 'Sex':['M', 'M', 'M', 'M', 'F', 'F', 'F', 'F', 'F', 'F']} df = pd.DataFrame(data) # 使用.head()展示前3行Name和Age兩列數據 print(df[['Name','Age']].head(3))
以上代碼中,我們使用.head()展示了前3行DataFame中Name和Age兩列的數據。
四、DataFrame.head()與數據清洗
在進行數據清洗的時候,我們通常需要查看數據中是否存在臟數據或者缺失數據。使用DataFrame.head()可以幫助我們快速地查看數據中的情況。
import pandas as pd # 創建一個裝有數據清洗前的數據集的DataFrame data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky', 'Vin', 'Lisa', 'Kate', 'Emma', 'Annie', 'Maggie'], 'Age':[28, 34, 29, 42, 25, 23, 35, 31, 27, 39], 'Salary':[10000, 15000, 20000, 30000, 17000, 18000, 25000, '', 28000, 15000]} df = pd.DataFrame(data) # 使用.head()展示前5行數據 print(df.head()) # 刪除數據清洗中發現的某些數據 df = df.dropna() # 刪除空值 df['Salary'] = pd.to_numeric(df['Salary'], errors='coerce') # 將Salary列轉換成數值型數據 df = df.dropna() # 再次刪除空值 print(df.head()) # 再次使用.head()展示前5行數據
以上代碼中,我們創建了一個具有臟數據和缺失值的DataFrame,然後使用DataFrame.head()展示前5行數據。接著,我們對數據進行清洗,包括刪除缺失值並將數據類型轉換為數值型,最後再使用.head()展示前5行數據。
五、總結
我們可以看到,DataFrame.head()函數在數據的快速展示和數據清洗中都有非常重要的作用。通過本文的介紹,我們可以更加深入地了解到該函數的用法和應用場景。
原創文章,作者:CWON,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/148272.html