如何使用Pandas的aggregate函數進行數據匯總和計算

一、Pandas簡介

Pandas是一個數據分析工具,它提供了用於數據操作和分析的高效數據結構和函數。Pandas的核心數據結構是DataFrame和Series,在數據清理、預處理、可視化以及統計分析中都有廣泛的應用。

二、Pandas聚合功能介紹

Pandas聚合功能在數據分析中扮演著重要的角色,它可以對數據進行分類、分組、篩選、匯總和計算等操作,常用於數據透視表、統計分析、數據報表和可視化等領域。

Pandas提供了多種函數用於聚合操作,其中最常用的是aggregate函數。該函數可以對數據進行用戶自定義的聚合操作,例如求和、平均值、最大值、最小值、中位數、百分位數、方差和標準差等。

三、如何使用Pandas的aggregate函數進行數據匯總和計算

1. 對整個DataFrame進行聚合操作

對整個DataFrame進行聚合操作可以得到完整的數據匯總結果。

import pandas as pd

# 創建DataFrame
data = {'name': ['Tom', 'Jack', 'Mary'], 'age': [20, 30, 25], 'score': [90, 80, 95]}
df = pd.DataFrame(data)

# 聚合操作
result = df.agg({'age': ['min', 'max'], 'score': ['mean', 'std']})

print(result)

該代碼通過agg函數對DataFrame進行聚合操作,對年齡列求最小值和最大值,對分數列求平均值和標準差,輸出聚合結果。

2. 對分組數據進行聚合操作

對分組數據進行聚合操作可以得到每個分組的統計數據,例如每個班級的平均分、最高分、最低分等。

import pandas as pd

# 創建DataFrame
data = {'name': ['Tom', 'Jack', 'Mary', 'Lucy', 'Lily', 'Bob'], 'age': [20, 30, 25, 22, 28, 26], 
        'score': [90, 80, 95, 88, 92, 85], 'group': ['A', 'A', 'A', 'B', 'B', 'B']}
df = pd.DataFrame(data)

# 按班級分組,對每個班級的成績進行聚合操作
result = df.groupby('group').agg({'score': ['mean', 'min', 'max']})

print(result)

該代碼通過groupby函數將DataFrame按班級分組,對每個班級的成績列求平均值、最小值和最大值,輸出每個分組的聚合結果。

3. 對多個列進行聚合操作

對多個列進行聚合操作可以得到多維度的數據統計結果,例如每個班級的男女生平均分、最高分、最低分等。

import pandas as pd

# 創建DataFrame
data = {'name': ['Tom', 'Jack', 'Mary', 'Lucy', 'Lily', 'Bob'], 'age': [20, 30, 25, 22, 28, 26], 
        'score': [90, 80, 95, 88, 92, 85], 'group': ['A', 'A', 'B', 'B', 'A', 'B'], 'gender': ['男', '男', '女', '女', '男', '女']}
df = pd.DataFrame(data)

# 按班級和性別分組,對每個班級和性別的成績進行聚合操作
result = df.groupby(['group', 'gender']).agg({'score': ['mean', 'min', 'max']})

print(result)

該代碼通過groupby函數將DataFrame按班級和性別分組,對每個班級和性別的成績列求平均值、最小值和最大值,輸出多維度的數據統計結果。

4. 自定義聚合函數

自定義聚合函數可以靈活地對數據進行統計和計算,例如對成績進行標準化處理。

import pandas as pd

# 自定義標準化函數
def std_func(x):
    return (x - x.mean()) / x.std()

# 創建DataFrame
data = {'name': ['Tom', 'Jack', 'Mary', 'Lucy', 'Lily', 'Bob'], 'age': [20, 30, 25, 22, 28, 26], 
        'score': [90, 80, 95, 88, 92, 85], 'group': ['A', 'A', 'B', 'B', 'A', 'B'], 'gender': ['男', '男', '女', '女', '男', '女']}
df = pd.DataFrame(data)

# 對每個班級和性別的成績進行自定義聚合操作
result = df.groupby(['group', 'gender']).agg({'score': std_func})

print(result)

該代碼通過自定義標準化函數std_func對每個班級和性別的成績進行聚合操作,輸出標準化後的聚合結果。

四、總結

本文介紹了如何使用Pandas的aggregate函數進行數據匯總和計算,包括對整個DataFrame進行聚合、對分組數據進行聚合、對多個列進行聚合以及自定義聚合函數等操作。Pandas提供了豐富的聚合功能,可以滿足不同的數據分析場景需求,讓數據分析更加高效和便捷。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/240062.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-12 12:20
下一篇 2024-12-12 12:20

相關推薦

  • Python中引入上一級目錄中函數

    Python中經常需要調用其他文件夾中的模塊或函數,其中一個常見的操作是引入上一級目錄中的函數。在此,我們將從多個角度詳細解釋如何在Python中引入上一級目錄的函數。 一、加入環…

    編程 2025-04-29
  • Python中capitalize函數的使用

    在Python的字元串操作中,capitalize函數常常被用到,這個函數可以使字元串中的第一個單詞首字母大寫,其餘字母小寫。在本文中,我們將從以下幾個方面對capitalize函…

    編程 2025-04-29
  • Python讀取CSV數據畫散點圖

    本文將從以下方面詳細闡述Python讀取CSV文件並畫出散點圖的方法: 一、CSV文件介紹 CSV(Comma-Separated Values)即逗號分隔值,是一種存儲表格數據的…

    編程 2025-04-29
  • Python中set函數的作用

    Python中set函數是一個有用的數據類型,可以被用於許多編程場景中。在這篇文章中,我們將學習Python中set函數的多個方面,從而深入了解這個函數在Python中的用途。 一…

    編程 2025-04-29
  • 單片機列印函數

    單片機列印是指通過串口或並口將一些數據列印到終端設備上。在單片機應用中,列印非常重要。正確的列印數據可以讓我們知道單片機運行的狀態,方便我們進行調試;錯誤的列印數據可以幫助我們快速…

    編程 2025-04-29
  • 三角函數用英語怎麼說

    三角函數,即三角比函數,是指在一個銳角三角形中某一角的對邊、鄰邊之比。在數學中,三角函數包括正弦、餘弦、正切等,它們在數學、物理、工程和計算機等領域都得到了廣泛的應用。 一、正弦函…

    編程 2025-04-29
  • 如何使用Python獲取某一行

    您可能經常會遇到需要處理文本文件數據的情況,在這種情況下,我們需要從文本文件中獲取特定一行的數據並對其進行處理。Python提供了許多方法來讀取和處理文本文件中的數據,而在本文中,…

    編程 2025-04-29
  • Python中讀入csv文件數據的方法用法介紹

    csv是一種常見的數據格式,通常用於存儲小型數據集。Python作為一種廣泛流行的編程語言,內置了許多操作csv文件的庫。本文將從多個方面詳細介紹Python讀入csv文件的方法。…

    編程 2025-04-29
  • Python3定義函數參數類型

    Python是一門動態類型語言,不需要在定義變數時顯示的指定變數類型,但是Python3中提供了函數參數類型的聲明功能,在函數定義時明確定義參數類型。在函數的形參後面加上冒號(:)…

    編程 2025-04-29
  • 如何用Python統計列表中各數據的方差和標準差

    本文將從多個方面闡述如何使用Python統計列表中各數據的方差和標準差, 並給出詳細的代碼示例。 一、什麼是方差和標準差 方差是衡量數據變異程度的統計指標,它是每個數據值和該數據值…

    編程 2025-04-29

發表回復

登錄後才能評論