Pandas重命名列

在數據清洗和數據處理的過程中，常常需要對列進行命名的修改。這是一個非常基礎但是又非常重要的操作，也是每一個數據處理工程師必須熟練掌握的技能。本文將從多個方面詳細闡述Pandas重命名列的相關操作。

一、列名的修改

在Pandas中，修改列名的方式非常簡單，可以使用`rename()`函數來實現。下面是一個簡單的例子：


import pandas as pd

data = {'A': [1, 2, 3],
        'B': [4, 5, 6],
        'C': [7, 8, 9]}

df = pd.DataFrame(data)
print(df)

# 將列名 A 修改為 a，B 修改為 b，C 修改為 c
df = df.rename(columns={'A': 'a', 'B': 'b', 'C': 'c'})
print(df)

輸出結果如下：

在上面的例子中，我們使用了`rename()`函數對DataFrame中的列名進行了修改，將原有的 A、B、C 分別修改為小寫字母 a、b、c。需要注意的是，`rename()`函數可以接收一個字典作為參數，其中字典的 key 是原有的列名，value 是需要修改的新列名。

二、列名的批量修改

在實際的數據分析過程中，我們常常需要對多列的列名進行修改，如果一個個單獨修改顯然是非常繁瑣的。這時候，我們可以採用批量修改的方式，使用列表生成式和字符串操作符來完成。


# 將列名全部改為大寫
df.columns = [col.upper() for col in df.columns]
print(df)

上面的代碼將 DataFrame 中所有的列名全部改為了大寫，這都是通過列表生成式來輕鬆實現的。

三、列名的替換

在某些場景下，我們需要對列名中某個特定的字符串進行替換。比如我們在分析財務數據時，很多列都是日期類型，包含了年月日這些信息，如果這些日期格式是固定的，我們可以通過替換的方式將列名中的日期信息刪除，從而使得列名更加簡潔明了。


# 替換列名中的日期信息
df.columns = df.columns.str.replace('2021-', '')
print(df.columns)

上面的代碼中，我們使用了 `str.replace()` 函數來替換列名中的日期信息，這樣就可以使得列名更加精簡，方便後續的數據分析。

四、列名的重命名

在使用 Pandas 進行數據處理時，我們常常會遇到重複的列名。如果不進行重命名，就會導致數據處理階段的錯誤。下面是如何使用 Pandas 重命名重複的列名:


# 重命名重複的列名
df = pd.read_csv('data.csv')
df.columns = pd.io.parsers.ParserBase({'names':df.columns})._maybe_dedup_names(df.columns)
print(df)

上面的代碼中，我們使用Pandas的 `read_csv()` 函數讀取了包含重複列名的 csv 文件，然後使用內置的函數 `_maybe_dedup_names` 來對重複的列名進行重命名。

五、列名的排序

在對 DataFrame 進行數據處理時，我們可能會需要對列名進行排序。下面是一些例子：


# 對列名進行自然排序
df = pd.read_csv('data.csv')
df = df.reindex(sorted(df.columns), axis=1)
print(df)

# 對列名進行反向排序
df = pd.read_csv('data.csv')
df = df.reindex(sorted(df.columns, reverse=True), axis=1)
print(df)

# 只對數值列進行排序
df = pd.read_csv('data.csv')
numeric_cols = df.select_dtypes(include=np.number).columns.tolist()
other_cols = [col for col in df.columns if col not in numeric_cols]
sorted_cols = sorted(numeric_cols) + sorted(other_cols)
df = df[sorted_cols]
print(df)

上面的代碼中，我們使用了不同的排序方式來對 DataFrame 的列名進行處理。首先，我們可以通過 `sorted()` 函數對列名進行自然排序。接下來，我們可以通過 `sorted()` 函數的`reverse` 參數來對列名進行反向排序。最後，我們還可以通過 Pandas 的內置函數 `select_dtypes()` 來僅對數值列進行排序，然後將數值列和非數值列重新拼接起來。

六、小結

通過本文的內容介紹，我們了解到了 Pandas 中對於列名的修改、批量修改、替換、重命名和排序等操作。每種操作都有其特殊的應用場景，掌握這些操作可以幫助我們更高效地進行數據處理和分析。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/206162.html