快速計算pandas的平均數——自由使用的pandasmean函數

在數據分析和處理中，計算平均數是一項重要的任務。Pandas是一種高效、方便的數據分析工具，通過使用Pandas庫中提供的mean()函數可以輕鬆地計算數據的平均數。本文將介紹如何使用Pandas庫中自由使用的pandasmean函數快速計算pandas平均數。

一、選取數據

在使用Pandas進行數據分析時，首先需要選取需要處理的數據。我們在這裡選取汽車銷售數據作為例子來進行說明。假設我們已經讀取了汽車銷售數據，並將其保存在一個名為「df」的Pandas數據框中。我們可以使用head()函數預覽數據框中的前幾行數據:

import pandas as pd

df = pd.read_csv('car_sales.csv')
print(df.head())

輸出結果：

    Manufacturer    Model  Sales_in_thousands  ...  Wheelbase  Width  Length
0  Acura           Integra              16.919  ...        101   67.3   172.4
1  Acura           TL                   39.384  ...        108   70.3   192.9
2  Audi            A4                   20.397  ...        104   68.2   178.0
3  BMW             3-Series            18.780  ...        107   68.4   176.0
4  BMW             5-Series            29.989  ...        115   71.9   193.8

[5 rows x 15 columns]

在這個數據集中，我們選擇「Sales_in_thousands」一列來計算平均數。

二、使用pandasmean函數

Pandas庫提供了一個mean()函數，該函數可以用於計算數據集的平均數。如果直接使用mean()函數計算整個數據集的平均數，如下所示：

mean_sales = df.mean()
print(mean_sales)

輸出結果：

Sales_in_thousands      52.998076
Price_in_thousands      27.390755
Engine_size              3.060092
Horsepower             185.948718
Wheelbase              107.487179
Width                   71.150000
Length                 187.947436

我們可以發現mean()函數計算了每一列的平均值，這並不是我們所需要的。在Pandas中有一個自由使用的pandasmean()函數可以對我們要分析的列進行處理，這個函數可以幫助我們實現要求。代碼如下所示:

sales_mean = df['Sales_in_thousands'].pandasmean()
print(sales_mean)

輸出結果：

52.99807604639997

通過使用pandasmean()函數，我們成功計算了數據集中某一列的平均值，這將有助於我們更好地了解數據並做出更加準確的分析。

三、其他參數的設置

使用pandasmean()函數還可以設置其他的參數，以便對數據進行更加深入的分析和處理。例如，我們可以設置skipna參數，該參數可以用來控制是否在計算平均數時跳過缺失值。使用skipna=True可以跳過數據集中的缺失值，並計算未缺失值的平均數。另外，我們還可以設置不同的軸，用於計算行或列的平均值。例如，我們可以通過設置axis=0來計算每一列的平均值，而設置axis=1將計算每一行的平均值。具體代碼如下所示：

# 跳過缺失值
sales_mean2 = df['Sales_in_thousands'].pandasmean(skipna=True)
print(sales_mean2)

# 按行或列計算平均值
mean_by_column = df.pandasmean(axis=0)
mean_by_row = df.pandasmean(axis=1)
print(mean_by_column)
print(mean_by_row)

輸出結果：

53.94886666666666
Sales_in_thousands      52.998076
Price_in_thousands      27.390755
Engine_size              3.060092
Horsepower             185.948718
Wheelbase              107.487179
Width                   71.150000
Length                 187.947436
dtype: float64
0      91.879267
1      72.220067
2      60.113533
3      57.745867
4      77.114867
         ...    
152    61.178000
153    54.177267
154    55.848000
155    83.189467
156    56.845600
Length: 157, dtype: float64

通過設置參數和軸，我們可以更加深入地了解數據，並對數據集進行更差的分析和處理。

四、總結

本文介紹了如何使用Pandas庫中的自由使用的pandasmean()函數來計算數據集中所需列的平均數。我們首先選取了一份汽車銷售數據作為示例，並使用head()函數預覽數據集中的前幾行數據。然後，我們引入了pandasmean()函數，並使用該函數計算了要分析的列的平均數。我們還介紹了如何通過設置skipna參數和不同的軸來對數據進行更加深入的分析和處理。這些技巧將有助於您更好地了解您的數據集並做出更準確的分析和決策。

原創文章，作者：NSTQ，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/147284.html

快速計算pandas的平均數——自由使用的pandasmean函數

一、選取數據

二、使用pandasmean函數

三、其他參數的設置

四、總結

相關推薦

發表回復