python怎麼刪除重複數據庫,python刪除列表重複

本文目錄一覽：

1、python–pandas刪除
2、python刪除重複數據
3、python如何批量對每一個excel文件進行去重？
4、python如何有多個重複元素刪除其中一個？

python–pandas刪除

drop 方法是pandas中刪除行或列的方法。

根據索引名刪除目標行。

當需要根據索引位置刪除時，可以使用 index 屬性來組合完成。

根據列名刪除目標列，同時需要設置 axis=1 或者 columns 。

當需要根據列位置刪除時，可以使用 columns 屬性來組合完成。

刪除列也可以用關鍵字 del 實現，每次只能刪除一列，且刪除列後，原數據發生改變。

同時刪除行和列，需要為行使用 index 參數，為列使用 columns 參數。

當數據框有多重索引時，刪除行時，需要設置 level 參數。

多重索引數據框同時刪除行和列時，只能刪除第一層索引和列。

dropna 為刪除缺失值的方法。

默認會刪除包含缺失值的所有行。

可設置 how , thresh , subset 參數控制刪除的行為。

設置參數 axis=1 或者 axis=columns 刪除缺失列。

同樣，可以設置 how , thresh , subset 參數來控制刪除缺失列的行為。

刪除重複值用 drop_duplicates 方法實現。

設置 subset 參數，根據列刪除重複行。

設置 ignore_index=True 可以對刪除重複行後的數據索引重排序。

python刪除重複數據

利用集合的不重複屬性，可以先轉換至集合，再用list()函數轉換回來即可。

比如，a是一個列表，a=list(set(a))，即可完成列表去重。

python如何批量對每一個excel文件進行去重？

去重

我們使用Pandas庫的drop_duplicates(subset=None, keep=‘first’, inplace=False)功能來對Excel文件中的重複項進行刪除。

其中，subset參數代表指定列標記，默認當每一條行記錄完全相同時，才會認定為重複行；keep=‘’有‘first’、‘last’和‘False’，意思是刪除重複行時，保留first還是last還是全部刪除，默認參數是‘first’；inplace=‘’有True和Flase，意思是直接替換還是保留副本,默認值是Flase。

讀取Excel

import pandas as pd

df = pd.read_excel(‘全部.xlsx’)

選中列去重

df.drop_duplicates([‘用戶名稱’])

其中第2、3行的用戶名稱與第0、1行重複，所以被刪除。

保存最後一個重複數據

df.drop_duplicates([‘用戶名稱’],keep=’last’)

保存Excel

df.to_excel(‘去重後.xlsx’)

批量獲取Excel文件

在上面我們已經學會如何對單個Excel文件去重了，但是在讀取文件名的時候，我們還是需要手動輸入的，如果文件很多的話，我們要一個一個的輸入，這不僅麻煩，而且也不符合自動化辦公的名頭。所以，我們就需要想辦法取得該目錄下的所有Excel文件。

這裡我們用的是Pathlib庫，取得該目錄下所有的xlsx格式文件。

path = ‘K:\自動化辦公’

python如何有多個重複元素刪除其中一個？

如果你知道他的索引（index）

假設他的索引存在變量a中

列表名為list

list.pop(a)

當然，也可以用remove函數

但是，局限於只能刪第一個

比如：

a=[0,1,1,1,2,3,3]

a.remove(1)

print(a)

結果為：

[0, 1, 1, 2, 3, 3]

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/193930.html