一、df.loc的基本用法
在Pandas中,使用df.loc來訪問某個DataFrame中的行和列的數據。其基本語法為:df.loc[row_indexer, column_indexer]。其中,row_indexer可以是一個單獨的標籤,也可以是一組標籤;column_indexer可以是一個單獨的標籤,也可以是一組標籤。如果不指定row_indexer,則會返回所有行的數據;如果不指定column_indexer,則會返回所有列的數據。
import pandas as pd import numpy as np data = {'name': ['Tom', 'Jerry', 'Spike', 'Tyke'], 'age': [10, 12, 3, 1], 'gender': ['M', 'M', 'M', 'M'], 'score': [85, 90, 78, 92]} df = pd.DataFrame(data) print(df.loc[1:3, 'age':'score'])
上面的代碼中,我們創建了一個DataFrame,並使用df.loc訪問其中的行和列數據。具體來說,我們指定了row_indexer為1:3,column_indexer為’age’:’score’,這樣就返回了第2行到第4行([1:3]的含義),以及’age’到’score’列的數據。結果為:
age gender score 1 12 M 90 2 3 M 78 3 1 M 92
二、df.loc的高級用法
除了基本用法外,df.loc還支持一些高級用法,可以更加靈活地訪問DataFrame中的數據。
1. 使用布爾條件訪問數據
可以使用一些布爾條件來訪問DataFrame中的數據。具體來說,可以創建一組布爾條件,然後使用這組條件來篩選出符合條件的行或列。代碼示例如下:
import pandas as pd import numpy as np data = {'name': ['Tom', 'Jerry', 'Spike', 'Tyke'], 'age': [10, 12, 3, 1], 'gender': ['M', 'M', 'M', 'M'], 'score': [85, 90, 78, 92]} df = pd.DataFrame(data) bool_indexer = [False, True, True, False] print(df.loc[bool_indexer, :])
上面的代碼中,我們創建了一個DataFrame,並使用bool_indexer來指定需要訪問的行(這裡我們只訪問第2行和第3行)。由於我們沒有指定column_indexer,因此返回了所有列的數據。結果為:
name age gender score 1 Jerry 12 M 90 2 Spike 3 M 78
2. 使用函數訪問數據
還可以使用一些函數來訪問DataFrame中的數據。比如,可以使用apply函數對某一列的數據進行處理,然後返回一個新的Series,再使用df.loc訪問所需的行或列。代碼示例如下:
import pandas as pd import numpy as np data = {'name': ['Tom', 'Jerry', 'Spike', 'Tyke'], 'age': [10, 12, 3, 1], 'gender': ['M', 'M', 'M', 'M'], 'score': [85, 90, 78, 92]} df = pd.DataFrame(data) def is_adult(row): return row['age'] >= 18 adult_mask = df.apply(is_adult, axis=1) print(df.loc[adult_mask, ['name', 'score']])
上面的代碼中,我們定義了一個is_adult函數,來判斷某個人是否成年(這裡我們的判斷條件是age>=18),然後使用apply函數對整個DataFrame進行處理,得到一個布爾類型的Series,再使用df.loc來訪問所有成年人的姓名和分數。結果為:
Empty DataFrame Columns: [name, score] Index: []
由於我們沒有任何一個人的年齡>=18,因此返回了一個空的DataFrame。
3. 使用多重條件訪問數據
在有些情況下,我們需要同時使用多個條件來訪問DataFrame中的數據。可以使用&(與)、|(或)、~(非)等邏輯運算符,將多個條件組合起來。代碼示例如下:
import pandas as pd import numpy as np data = {'name': ['Tom', 'Jerry', 'Spike', 'Tyke'], 'age': [10, 12, 3, 1], 'gender': ['M', 'M', 'M', 'M'], 'score': [85, 90, 78, 92]} df = pd.DataFrame(data) bool_indexer1 = (df['age']>=10) & (df['score']>=90) bool_indexer2 = (df['age']=80) bool_indexer = bool_indexer1 | bool_indexer2 print(df.loc[bool_indexer, :])
上面的代碼中,我們使用了兩個多重布爾條件(bool_indexer1和bool_indexer2),表示需要訪問的數據的條件。具體來說,bool_indexer1表示age>=10且score>=90的數據,bool_indexer2表示age[小於]10且score>=80的數據。最後,我們使用|(或)將兩個條件組合起來,並使用df.loc來訪問所需的行和列。結果為:
name age gender score 0 Tom 10 M 85 1 Jerry 12 M 90 3 Tyke 1 M 92
三、df.loc的注意事項
雖然df.loc非常靈活,但也有一些需要注意的地方。
1. 不要混淆df.loc和df.iloc的用法
在Pandas中,除了df.loc,還有一個類似的方法df.iloc,可以用來訪問DataFrame中的數據。df.iloc的基本語法為:df.iloc[row_indexer, column_indexer]。其中row_indexer和column_indexer分別表示需要訪問的行和列的索引號。需要注意的是,df.loc使用的是標籤索引(label-based indexing),而df.iloc使用的是位置索引(integer-based indexing)。混淆兩者的用法很容易引起錯誤,因此要根據具體情況選擇合適的訪問方式。
2. 不要修改df.loc返回的數據
df.loc返回的是原DataFrame的一個視圖,也就是說,如果直接修改它,會修改原DataFrame的數據,這可能會導致一些不可預料的結果。因此,建議使用df.copy()方法來複制DataFrame的數據,然後對副本進行修改。
3. 不要對df.loc返回的數據進行二次切片
如果對df.loc返回的數據進行二次切片(比如使用df.loc[bool_indexer, :][[‘name’, ‘score’]]這種方式),可能會導致一些性能問題。因此,建議先使用df.loc獲取所需的行和列,然後再對結果進行處理。
四、總結
本文詳細介紹了df.loc的基本用法和高級用法,包括使用布爾條件訪問數據、使用函數訪問數據、使用多重條件訪問數據等。同時,還介紹了df.loc的注意事項,以幫助讀者更好地理解和使用該方法。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/311138.html