pandas去重詳述

在數據處理中，我們經常會遇到需要去重的場景。Pandas是Python中一個強大的數據處理庫，提供了多種方法來對數據進行去重操作。在本文中，我們將從多個方面對Pandas去重做詳細的闡述。

一、數據去重基礎

在介紹Pandas的去重操作之前，我們需要先了解一些基礎的概念。實際上，所謂的“去重”也就是將重複的數據項進行刪除的操作。

在Pandas中，我們可以使用duplicated()和drop_duplicates()兩個方法進行去重操作。其中，duplicated()方法會返回一個布爾型的Series，用於標記數據是否重複，而drop_duplicates()則會直接刪除重複的數據項。

import pandas as pd

# 創建一個包含重複數據的DataFrame
df = pd.DataFrame({'A': [1, 2, 2, 3, 4], 'B': [5, 6, 6, 7, 8]})

# 使用duplicated()方法找出重複數據項
duplicated = df.duplicated()

# 打印結果
print(duplicated)

# 使用drop_duplicates()方法刪除重複數據項
df.drop_duplicates(inplace=True)

# 打印結果
print(df)

上面的例子中，我們創建了一個包含重複數據的DataFrame，並使用了duplicated()和drop_duplicates()方法進行了數據去重操作。值得注意的是，我們在使用drop_duplicates()方法時傳入了參數inplace=True，表示直接修改原始的數據，而不是返回一個新的數據副本。

二、按列去重

實際上，我們在實際的應用中經常需要按照某一列或多列進行數據去重。在Pandas中，我們可以使用drop_duplicates()方法的subset參數指定需要進行去重的列。

import pandas as pd

# 創建一個包含重複數據的DataFrame，其中有重複的B列數據
df = pd.DataFrame({'A': [1, 2, 2, 3, 4], 'B': [5, 6, 6, 7, 8]})

# 對B列進行去重操作
df.drop_duplicates(subset=['B'], inplace=True)

# 打印結果
print(df)

在上面的例子中，我們指定了subset參數為[‘B’]，表示只對B列進行去重操作。經過去重後，只剩下了一組6和7的數據項。

三、自定義去重條件

在實際的應用中，我們有些時候需要根據自定義的條件來進行數據去重。在Pandas中，我們可以使用drop_duplicates()方法的keep參數指定保留哪一個重複數據項。

import pandas as pd

# 創建一個包含重複數據的DataFrame
df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10]})

# 根據A列的奇偶性進行去重操作，保留最後一個重複數據項
df.drop_duplicates(subset=['A'], keep='last', inplace=True)

# 打印結果
print(df)

在上面的例子中，我們自定義了一個去重條件：根據A列的奇偶性進行去重操作，並且指定了keep參數為’last’，表示保留重複數據項中最後出現的那個。結果中只剩下了A為5的一組數據。

四、多列去重和排序

在進行數據去重的同時，我們經常需要按照一定的規則對數據進行排序。在Pandas中，我們可以通過使用sort_values()方法對數據進行排序，然後再進行去重操作。

import pandas as pd

# 創建一個包含重複數據的DataFrame
df = pd.DataFrame({'A': [1, 1, 2, 2, 3], 'B': [3, 2, 2, 1, 1], 'C': [5, 4, 3, 2, 1]})

# 按照A、B兩列進行排序
df.sort_values(by=['A', 'B'], inplace=True)

# 對A、B兩列進行去重操作
df.drop_duplicates(subset=['A', 'B'], inplace=True)

# 打印結果
print(df)

在上面的例子中，我們首先按照A列和B列進行了排序，然後再按照A列和B列進行了去重操作。結果中只剩下了兩組數據：(1, 2, 3)和(2, 1, 2)。

五、去重案例實戰

最後，我們來看一個更加實用的去重案例：對多個Excel文件進行數據去重和合併。

import pandas as pd
import os

# 需要進行去重和合併的Excel文件所在目錄
excel_dir = 'D:/excel_files'

# 創建一個空的DataFrame用於存放去重後的數據
merged = pd.DataFrame()

# 遍歷目錄下的所有Excel文件，進行數據去重和合併
for file_name in os.listdir(excel_dir):
    if file_name.endswith('.xlsx'):
        file_path = os.path.join(excel_dir, file_name)
        # 讀取Excel文件
        df = pd.read_excel(file_path)
        # 對數據進行去重操作
        df.drop_duplicates(inplace=True)
        # 將去重後的數據合併到merged中
        merged = pd.concat([merged, df])

# 對merged中的數據按照A、B兩列進行去重操作
merged.drop_duplicates(subset=['A', 'B'], inplace=True)

# 將處理後的數據保存到Excel文件中
merged.to_excel('result.xlsx', index=False)

在上面的例子中，我們遍歷了指定目錄下的所有Excel文件，並進行了數據去重和合併操作，最後將處理後的數據保存到了一個新的Excel文件中。同時，我們還使用了subset參數指定A列和B列進行了去重操作。

總結

本文詳細介紹了Python中使用Pandas進行數據去重的方法。我們從數據去重的基礎概念入手，逐步深入闡述了如何按列去重、自定義去重條件、多列去重和排序等操作。希望通過本文的介紹，能夠更好地掌握Pandas中數據去重的各種使用技巧。

原創文章，作者：FSOI，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/144920.html