一、創建DataFrame
在使用pandas庫進行數據分析時,首先需要創建DataFrame對象。DataFrame可以看作是一張數據庫表格或者電子表格,其中包含了多個Series。我們可以使用列表、字典等數據結構作為DataFrame的數據源來創建DataFrame。
import pandas as pd # 使用列表創建DataFrame data = [['Tom', 25], ['Jerry', 30], ['Mike', 28]] df = pd.DataFrame(data, columns=['Name', 'Age']) print(df) # 使用字典創建DataFrame data = {'Name': ['Tom', 'Jerry', 'Mike'], 'Age': [25, 30, 28]} df = pd.DataFrame(data) print(df)
二、數據選取和切片
對於DataFrame對象,我們可以通過列名選取對應的列,也可以通過行索引選取對應的行或者使用切片選取一塊區域。同時也可以使用loc和iloc方法實現更加靈活的選取。
# 列選取 df['Name'] df.Name # 行選取 df.loc[0] df.iloc[0] # 切片選取 df.loc[0:1, 'Name':'Age'] df.iloc[0:2, 0:2]
三、數據過濾和排序
在數據分析中,我們需要根據不同的條件對數據進行過濾,同時也需要根據不同的列對數據進行排序。
# 數據過濾 df[df.Age > 25] # 數據排序 df.sort_values(by='Age') df.sort_values(by=['Age', 'Name'], ascending=[True, False])
四、數據聚合和統計
在進行數據分析時,我們需要對數據進行聚合和統計,例如求和、平均值、最大值等。
# 數據聚合 df.groupby(by='Age').sum() # 數據統計 df.describe() df.count() df.mean() df.max()
五、數據合併和拼接
在實際的數據分析中,我們需要將多個數據集合併起來或者將一個數據集拆分為多個數據集。Pandas提供了多個方法實現數據的合併和拼接。
# 數據合併 df1 = pd.DataFrame({'Name': ['Tom', 'Jerry'], 'Age': [25, 30]}) df2 = pd.DataFrame({'Name': ['Mike', 'Jerry'], 'Salary': [5000, 6000]}) pd.merge(df1, df2, on='Name', how='inner') # 數據拼接 pd.concat([df1, df2], axis=1)
六、數據可視化
通過數據可視化,我們可以更加直觀地展示數據分析結果,為決策提供依據。Pandas提供了多個方法實現數據可視化,例如plot方法、hist方法、scatter方法等。
# 數據可視化 df.plot.bar(x='Name', y='Age') df.plot.hist(bins=10) df.plot.scatter(x='Age', y='Salary')
以上就是Python DataFrame相關操作的介紹,希望能夠幫助大家更好地使用Pandas進行數據分析和處理。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/193823.html