本文目錄一覽:
python–pandas刪除
drop 方法是pandas中刪除行或列的方法。
根據 索引名 刪除目標行。
當需要根據索引位置刪除時,可以使用 index 屬性來組合完成。
根據 列名 刪除目標列,同時需要設置 axis=1 或者 columns 。
當需要根據列位置刪除時,可以使用 columns 屬性來組合完成。
刪除列也可以用關鍵字 del 實現,每次只能刪除一列,且刪除列後,原數據發生改變。
同時刪除行和列,需要為行使用 index 參數,為列使用 columns 參數。
當數據框有多重索引時,刪除行時,需要設置 level 參數。
多重索引數據框同時刪除行和列時,只能刪除第一層索引和列。
dropna 為刪除缺失值的方法。
默認會刪除包含缺失值的所有行。
可設置 how , thresh , subset 參數控制刪除的行為。
設置參數 axis=1 或者 axis=columns 刪除缺失列。
同樣,可以設置 how , thresh , subset 參數來控制刪除缺失列的行為。
刪除重複值用 drop_duplicates 方法實現。
設置 subset 參數,根據列刪除重複行。
設置 ignore_index=True 可以對刪除重複行後的數據索引重排序。
python刪除重複數據
利用集合的不重複屬性,可以先轉換至集合,再用list()函數轉換回來即可。
比如,a是一個列表,a=list(set(a)),即可完成列表去重。
python如何批量對每一個excel文件進行去重?
01
去重
我們使用Pandas庫的drop_duplicates(subset=None, keep=‘first’, inplace=False)功能來對Excel文件中的重複項進行刪除。
其中,subset參數代表指定列標記,默認當每一條行記錄完全相同時,才會認定為重複行;keep=‘’有‘first’、‘last’和‘False’,意思是刪除重複行時,保留first還是last還是全部刪除,默認參數是‘first’;inplace=‘’有True和Flase,意思是直接替換還是保留副本,默認值是Flase。
讀取Excel
import pandas as pd
df = pd.read_excel(‘全部.xlsx’)
選中列去重
df.drop_duplicates([‘用戶名稱’])
其中第2、3行的用戶名稱與第0、1行重複,所以被刪除。
03
保存最後一個重複數據
df.drop_duplicates([‘用戶名稱’],keep=’last’)
04
保存Excel
df.to_excel(‘去重後.xlsx’)
02
批量獲取Excel文件
在上面我們已經學會如何對單個Excel文件去重了,但是在讀取文件名的時候,我們還是需要手動輸入的,如果文件很多的話,我們要一個一個的輸入,這不僅麻煩,而且也不符合自動化辦公的名頭。所以,我們就需要想辦法取得該目錄下的所有Excel文件。
這裡我們用的是Pathlib庫,取得該目錄下所有的xlsx格式文件。
path = ‘K:\自動化辦公’
python如何有多個重複元素刪除其中一個?
如果你知道他的索引(index)
假設他的索引存在變量a中
列表名為list
list.pop(a)
當然,也可以用remove函數
但是,局限於只能刪第一個
比如:
a=[0,1,1,1,2,3,3]
a.remove(1)
print(a)
結果為:
[0, 1, 1, 2, 3, 3]
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/193930.html