一、Pandas Sample簡介
Pandas Sample是Python語言中的一個數據分析庫,是由NumPy開發而來的一個開源免費的工具,可以通過其提供的強大功能來輕鬆地完成數據處理、數據分析、數據可視化等相關任務,被廣泛應用於各個領域。
現在幾乎在所有的Python數據分析工作中,都可以看到Pandas的身影。它可以讀寫各種不同格式的數據,包括csv、excel、數據庫等,且可以對數據進行清洗、重組、聚合、分析等各種操作。
在使用Pandas進行數據分析時,其中的操作主要分為數據導入、數據清洗、數據變形和數據聚合等幾個方面。接下來,我們將結合代碼示例來對各個方面進行闡述。
二、數據導入
要對數據進行分析、處理,首先需要導入數據集。Pandas Sample提供了多種導入數據的方式,其中較常見的包括:
1. 讀取本地文件
import pandas as pd df = pd.read_csv("file.csv")
2. 從遠程URL讀取文件
url = 'http://XXX.com/example.csv' df = pd.read_csv(url)
3. 讀取Excel文件
excel_file = 'file_name.xlsx' df = pd.read_excel(excel_file)
4. 從數據庫中讀入數據
from sqlalchemy import create_engine engine = create_engine("mysql+pymysql://username:password@localhost:port/databaseName") df = pd.read_sql_table("tableName", con=engine)
三、數據清洗
在數據清洗方面,Pandas Sample也提供了多種對數據進行處理的方法,主要包括缺失值處理、重複值處理和異常值處理等。以下是對缺失值進行處理的代碼示例:
1. 判斷缺失值並刪除
df.dropna() # 刪除有缺失的行或列 df[df['列名'].notna()] # 僅刪除指定列中含有缺失值的行 df.dropna(thresh=3) # 只保留至少三個非缺失值的行
2. 對缺失值進行填充
df.fillna(value=0) # 將缺失值填充為0 df.fillna(method='ffill') # 使用前面的非缺失值進行填充 df.fillna(df.mean()) # 使用均值進行填充 df.fillna(df.mode()) # 使用眾數進行填充
四、數據變形
在數據變形方面,Pandas Sample提供了多個方法對數據進行變形,包括轉置、抽取列、合併、透視、堆疊和拆分等。以下是對數據進行透視的代碼示例:
import pandas as pd data = { '性別': ['男', '女', '男', '女', '男', '女', '男', '女', '女', '男', '男', '女', '男', '男', '女', '女'], '購物地點': ['A', 'A', 'B', 'B', 'C', 'C', 'D', 'D', 'A', 'B', 'C', 'D', 'A', 'B', 'C', 'D'], '消費':[10, 20, 5, 30, 20, 30, 15, 40, 30, 30, 20, 10, 20, 20, 40, 5] } df = pd.DataFrame(data) # 對購物地點進行透視 result = pd.pivot_table(df,index=["購物地點"],values=["消費"],columns=["性別"],aggfunc=[len, np.sum]) print(result)
五、數據聚合
在數據聚合方面,Pandas Sample也提供了多種方法,可以很方便地進行數據聚合操作,包括groupby、aggregate和transform等。以下是對數據進行groupby操作的代碼示例:
import pandas as pd data = { '學科': ['語文', '數學', '英語', '語文', '數學', '英語'], '班級': ['一班', '一班', '一班', '二班', '二班', '二班'], '姓名': ['Tom', 'Jerry', 'Alice', 'John', 'Lucas', 'Bob'], '成績':[60, 90, 80, 70, 85, 75] } df = pd.DataFrame(data) gb = df.groupby(['學科', '班級'])['成績'] print(gb.mean()) # 計算每個班級每個學科的平均分
六、總結
在本文中,我們詳細解析了Python數據分析庫Pandas Sample的數據導入、數據清洗、數據變形和數據聚合等幾個方面。通過對這些示例的闡述,我們可以看到,Pandas Sample提供了多種靈活易用的數據處理方法,可以快速方便地完成各種數據分析任務。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/181965.html