Python數據處理模塊pandas常用功能

Python數據處理模塊pandas是一個強大的數據處理工具，非常適合進行大規模、多變數的數據處理和數據分析。pandas提供了多種數據結構和數據處理方法，操作簡單靈活，功能豐富。

一、讀取、保存數據

pandas支持多種文件格式，如csv、Excel、JSON、HTML、SQL等。可以使用pandas.read_csv()函數讀取csv文件，並使用.to_csv()將文件保存為csv。


import pandas as pd
df = pd.read_csv('data.csv')
df.to_csv('new_data.csv', index=False)

其中，index=False表示不將索引寫入文件。此外，read_excel、read_json、read_html、read_sql等函數也都十分便捷。

二、數據預處理

pandas提供了很多函數來處理數據中的缺失值和異常值。如fillna()函數用於填充缺失值，dropna()函數用於刪除缺失值的行或列，而replace()函數則可以用來替換異常值為合理的值。


import pandas as pd
df = pd.read_csv('data.csv')
df.dropna() # 刪除含有缺失值的行
df.fillna(0) # 將缺失值填充為0
df.replace({-999:0, -1000:1}) # 將-999替換為0，將-1000替換為1

三、數據切片、索引

pandas中有兩個核心結構：Series和DataFrame。Series是一維數組，而DataFrame則是二維的表格結構。可以使用loc、iloc等函數進行數據切片和索引。


import pandas as pd
# 創建DataFrame
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'], 
        'age': [25, 30, 35, 40]}
df = pd.DataFrame(data)
# loc方法進行行列切片和索引
df.loc[1:2, 'name':'age']

其中，loc方法中第一個參數表示要切片的行，第二個參數表示要篩選的列名。

四、數據統計

pandas提供了一些常用的函數來進行數據統計，如mean()、sum()、std()、var()等。此外，pandas還支持使用groupby函數進行數據分組和統計。


import pandas as pd
# 創建DataFrame
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'], 
        'age': [25, 30, 35, 40], 
        'income': [5000, 6000, 7000, 8000]}
df = pd.DataFrame(data)
# 根據age進行分組並計算income的平均值
df.groupby('age')['income'].mean()

以上函數分別計算了不同年齡段的人的平均收入。

五、數據可視化

使用pandas內置的plot函數可以進行簡單的數據可視化。常用的繪圖函數有plot()、scatter()、bar()、hist()等。


import pandas as pd
import matplotlib.pyplot as plt
# 創建DataFrame
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'], 
        'age': [25, 30, 35, 40], 
        'income': [5000, 6000, 7000, 8000]}
df = pd.DataFrame(data)
# 繪製收入柱狀圖
df.plot(kind='bar', x='name', y='income')
plt.show()

以上代碼繪製了一個收入柱狀圖，展示了不同人的收入情況。

總結

pandas是一個功能強大的數據處理工具，本文介紹了其常用的讀取、保存數據、數據預處理、數據切片、索引、數據統計和數據可視化等功能。熟練掌握這些功能可以大大提高數據處理和數據分析的效率。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/193472.html