詳解pd.unique函數

在Python中使用pandas進行數據處理時，pd.unique函數是常用的一種函數，用於剔除數據中的重複值，保留唯一值。pd.unique對於數據分析和清洗都非常有用，在數據處理領域有著重要的地位。

一、剔除數據中的重複值

我們經常會遇到處理數據中存在重複記錄的情況，此時我們可以使用pd.unique函數將重複的記錄剔除掉。

import pandas as pd

data = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                     'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                     'C': [1, 2, 3, 4, 5, 6, 7, 8]})
                     
unique_data = pd.unique(data['A'])
print('A列唯一值: ', unique_data)

unique_data = pd.unique(data[['A', 'B', 'C']])
print('ABC列唯一值: ', unique_data)

在上述代碼中，我們首先創建了一個DataFrame數據，其中包含三列。

然後分別使用pd.unique函數剔除了數據中A列和ABC三列中的重複值，並列印輸出了唯一值。

二、pd.unique函數詳解

（一）pd.unique函數是什麼？

pd.unique函數是pandas庫中的一個函數，用於剔除數據中的重複值，保留唯一值。pd.unique函數對於數據分析和清洗都非常有用，在數據處理領域有著重要的地位。

（二）pd.unique函數的使用方法

pd.unique函數的使用方法很簡單，只需傳入數據對象，即可返回去重後的值。

pd.unique(data)

（三）pd.unique函數的參數

pd.unique函數的參數如下：

arr: 必填參數，要進行去重操作的數據對象，可以是列表、Series或DataFrame。
return_index: 可選參數，默認為False，返回新列表中的元素在舊列表中的位置。
return_inverse: 可選參數，默認為False，返回舊列表中的元素在新列表中的位置。
return_counts: 可選參數，默認為False，返回去重後的元素在原列表中出現的次數。
axis: 可選參數，默認為None，用於指定在哪個軸上進行去重操作，只有在arr是DataFrame時才生效。

三、應用案例

（一）利用pd.unique函數查看數據中唯一值和特定值的對應關係

有時候我們需要查看某個列中的特定值與另一個列的值之間的對應關係，這時我們可以使用pd.unique函數進行查詢。

import pandas as pd

data = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                     'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                     'C': [1, 2, 3, 4, 5, 6, 7, 8]})

unique_B = pd.unique(data['B'])
for b in unique_B:
    print(b, ': ', pd.unique(data[data['B'] == b]['A']))

在上述代碼中，我們首先創建了一個DataFrame數據，其中包含三列。

然後使用pd.unique函數查看data中B列的唯一值，並循環遍歷每個唯一值，查詢該唯一值在A列中對應的唯一值。

（二）利用pd.unique函數實現數據去重和排序

有時候我們需要將給定的數據進行去重和排序的操作，這時我們可以使用pd.unique函數。

import numpy as np
import pandas as pd

data = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                     'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three']})

unique_data = pd.unique(np.sort(data['A']))
print('A列唯一值: ', unique_data)

在上述代碼中，我們首先創建了一個DataFrame數據，其中包含兩列。

然後使用pd.unique函數將A列的重複值剔除，並進行排序。

四、小結

本文詳細講解了pd.unique函數在數據處理中的作用及應用，包括去重操作和查看唯一值等功能。同時介紹了pd.unique函數的使用方法和參數，以及兩個實際應用案例，包括查看數據中唯一值和特定值的對應關係、利用pd.unique函數實現數據去重和排序。通過本文的闡述，希望讀者能夠更加深入地理解和掌握pd.unique函數，並能夠熟練地在數據處理中應用該函數。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/232220.html