利用Python Pandas實現條件語句

一、Pandas介紹

Pandas是一個專門用於數據分析的Python庫。它提供了快速、靈活、可靠的數據結構和數據操作工具，使得數據預處理、清洗、分析和可視化變得方便、快速、直觀。

在Pandas中，最基本的數據結構是Series和DataFrame。Series是一組有序的數據，可以看成是一維數組，每個數據有一個標籤，被稱為索引。DataFrame是基於Series構建的一種二維表格數據結構，每列可以有不同的數據類型，可以看成是一個更為靈活的Excel表格。

在Pandas中，除了數據結構之外，還提供了一系列用於數據操作和轉換的方法，例如排序、合併、分組、篩選等，使得數據處理變得更為高效、簡便。

二、條件語句介紹

條件語句是一種常見的編程語法，用於根據不同的條件執行不同的操作。Python提供了多種條件語句，最常見的是if語句。if語句可以根據某個條件判斷是否執行其中的代碼，也可以加上else語句表示如果條件不成立時執行的代碼塊。

在數據分析中，條件語句也經常被用於數據篩選和清洗。例如，我們可以使用條件語句來選取一些符合特定條件的數據行或列。

三、Pandas條件語句實現

在Pandas中，我們可以使用布爾索引來實現數據篩選和清洗。布爾索引是一種基於真值判斷的篩選方法，可以根據某個條件篩選出符合條件的數據行或列。

下面是一個通過布爾索引實現數據篩選的示例：


import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        'age': [22, 35, 18, 28, 30],
        'gender': ['F', 'M', 'F', 'M', 'F'],
        'score': [80, 90, 75, 85, 95]}

df = pd.DataFrame(data)

# 選取分數大於等於90分的學生數據
df2 = df[df['score'] >= 90]

print(df2)

在上面的代碼中，首先我們創建了一個包含學生姓名、年齡、性別和分數的數據表格df。然後，我們使用布爾索引df[‘score’] >= 90選取了分數大於等於90分的學生數據，並將選取結果存儲在新的數據表格df2中。

這裡的df[‘score’] >= 90是一個布爾數組，返回了每行數據的分數是否大於等於90分的判斷結果。我們可以將其作為索引來選擇數據。布爾數組返回的結果為True的行或列會被選擇出來，而為False的則會被排除。

四、Pandas條件語句實戰

下面是一個通過條件語句實現數據分組與統計的示例：


import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
        'age': [22, 35, 18, 28, 30],
        'gender': ['F', 'M', 'F', 'M', 'F'],
        'score': [80, 90, 75, 85, 95]}

df = pd.DataFrame(data)

# 根據性別分組，計算平均分
df2 = df.groupby('gender').mean()

print(df2)

在上面的代碼中，我們使用了groupby方法將數據按照性別分組，並使用mean方法計算了每個分組的平均分數，並將結果存儲在新的數據表格df2中。

由於這裡的groupby方法返回的是一個分組的DataFrameGroupBy對象，因此我們可以使用常見的聚合函數進行計算和統計，例如sum、count、min、max、mean等。對於多次計算，我們可以使用agg方法將各個計算函數作為字符串傳遞，以便同時計算多個統計指標。

五、結論

通過以上的介紹，我們可以發現，Pandas提供了豐富的數據處理和轉換方法，以及靈活的條件語句實現方式。在數據分析中，可以使用Pandas來進行數據清洗、篩選、變換和聚合，為後續的數據分析和建模提供良好的數據基礎。

原創文章，作者：VNMB，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/146397.html