df.loc的詳細解析

一、df.loc的基本用法

在Pandas中，使用df.loc來訪問某個DataFrame中的行和列的數據。其基本語法為：df.loc[row_indexer, column_indexer]。其中，row_indexer可以是一個單獨的標籤，也可以是一組標籤；column_indexer可以是一個單獨的標籤，也可以是一組標籤。如果不指定row_indexer，則會返回所有行的數據；如果不指定column_indexer，則會返回所有列的數據。

import pandas as pd
import numpy as np

data = {'name': ['Tom', 'Jerry', 'Spike', 'Tyke'],
        'age': [10, 12, 3, 1],
        'gender': ['M', 'M', 'M', 'M'],
        'score': [85, 90, 78, 92]}
df = pd.DataFrame(data)
print(df.loc[1:3, 'age':'score'])

上面的代碼中，我們創建了一個DataFrame，並使用df.loc訪問其中的行和列數據。具體來說，我們指定了row_indexer為1:3，column_indexer為’age’:’score’，這樣就返回了第2行到第4行（[1:3]的含義），以及’age’到’score’列的數據。結果為：

   age gender  score
1   12      M     90
2    3      M     78
3    1      M     92

二、df.loc的高級用法

除了基本用法外，df.loc還支持一些高級用法，可以更加靈活地訪問DataFrame中的數據。

1. 使用布爾條件訪問數據

可以使用一些布爾條件來訪問DataFrame中的數據。具體來說，可以創建一組布爾條件，然後使用這組條件來篩選出符合條件的行或列。代碼示例如下：

import pandas as pd
import numpy as np

data = {'name': ['Tom', 'Jerry', 'Spike', 'Tyke'],
        'age': [10, 12, 3, 1],
        'gender': ['M', 'M', 'M', 'M'],
        'score': [85, 90, 78, 92]}
df = pd.DataFrame(data)
bool_indexer = [False, True, True, False]
print(df.loc[bool_indexer, :])

上面的代碼中，我們創建了一個DataFrame，並使用bool_indexer來指定需要訪問的行（這裡我們只訪問第2行和第3行）。由於我們沒有指定column_indexer，因此返回了所有列的數據。結果為：

     name  age gender  score
1  Jerry   12      M     90
2  Spike    3      M     78

2. 使用函數訪問數據

還可以使用一些函數來訪問DataFrame中的數據。比如，可以使用apply函數對某一列的數據進行處理，然後返回一個新的Series，再使用df.loc訪問所需的行或列。代碼示例如下：

import pandas as pd
import numpy as np

data = {'name': ['Tom', 'Jerry', 'Spike', 'Tyke'],
        'age': [10, 12, 3, 1],
        'gender': ['M', 'M', 'M', 'M'],
        'score': [85, 90, 78, 92]}
df = pd.DataFrame(data)

def is_adult(row):
    return row['age'] >= 18

adult_mask = df.apply(is_adult, axis=1)
print(df.loc[adult_mask, ['name', 'score']])

上面的代碼中，我們定義了一個is_adult函數，來判斷某個人是否成年（這裡我們的判斷條件是age>=18），然後使用apply函數對整個DataFrame進行處理，得到一個布爾類型的Series，再使用df.loc來訪問所有成年人的姓名和分數。結果為：

Empty DataFrame
Columns: [name, score]
Index: []

由於我們沒有任何一個人的年齡>=18，因此返回了一個空的DataFrame。

3. 使用多重條件訪問數據

在有些情況下，我們需要同時使用多個條件來訪問DataFrame中的數據。可以使用&（與）、|（或）、~（非）等邏輯運算符，將多個條件組合起來。代碼示例如下：

import pandas as pd
import numpy as np

data = {'name': ['Tom', 'Jerry', 'Spike', 'Tyke'],
        'age': [10, 12, 3, 1],
        'gender': ['M', 'M', 'M', 'M'],
        'score': [85, 90, 78, 92]}
df = pd.DataFrame(data)

bool_indexer1 = (df['age']>=10) & (df['score']>=90)
bool_indexer2 = (df['age']=80)
bool_indexer = bool_indexer1 | bool_indexer2
print(df.loc[bool_indexer, :])

上面的代碼中，我們使用了兩個多重布爾條件（bool_indexer1和bool_indexer2），表示需要訪問的數據的條件。具體來說，bool_indexer1表示age>=10且score>=90的數據，bool_indexer2表示age[小於]10且score>=80的數據。最後，我們使用|（或）將兩個條件組合起來，並使用df.loc來訪問所需的行和列。結果為：

     name  age gender  score
0     Tom   10      M     85
1   Jerry   12      M     90
3    Tyke    1      M     92

三、df.loc的注意事項

雖然df.loc非常靈活，但也有一些需要注意的地方。

1. 不要混淆df.loc和df.iloc的用法

在Pandas中，除了df.loc，還有一個類似的方法df.iloc，可以用來訪問DataFrame中的數據。df.iloc的基本語法為：df.iloc[row_indexer, column_indexer]。其中row_indexer和column_indexer分別表示需要訪問的行和列的索引號。需要注意的是，df.loc使用的是標籤索引（label-based indexing），而df.iloc使用的是位置索引（integer-based indexing）。混淆兩者的用法很容易引起錯誤，因此要根據具體情況選擇合適的訪問方式。

2. 不要修改df.loc返回的數據

df.loc返回的是原DataFrame的一個視圖，也就是說，如果直接修改它，會修改原DataFrame的數據，這可能會導致一些不可預料的結果。因此，建議使用df.copy()方法來複制DataFrame的數據，然後對副本進行修改。

3. 不要對df.loc返回的數據進行二次切片

如果對df.loc返回的數據進行二次切片（比如使用df.loc[bool_indexer, :][[‘name’, ‘score’]]這種方式），可能會導致一些性能問題。因此，建議先使用df.loc獲取所需的行和列，然後再對結果進行處理。

四、總結

本文詳細介紹了df.loc的基本用法和高級用法，包括使用布爾條件訪問數據、使用函數訪問數據、使用多重條件訪問數據等。同時，還介紹了df.loc的注意事項，以幫助讀者更好地理解和使用該方法。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/311138.html