深入解析DataFrame中的sample方法

DataFrame是Pandas庫中非常重要的數據結構，而sample是用於Dataframe中的取樣函數之一。它允許您從DataFrame中選擇要進行分析或處理的隨機樣本。本文將會深入探討sample的使用及其參數，為您展示如何在DataFrame中使用sample方法。

一、隨機採樣

在訓練模型或分析數據時，我們經常需要從給定的DataFrame數據集中提取隨機樣本進行分析。這時，我們可以使用sample方法。該方法可以從DataFrame中隨機地選擇一些行或列，並將其組成一個新的DataFrame。

import pandas as pd

#創建一個DataFrame
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],'Age': [28, 34, 29, 42],'Country':['US', 'UK', 'US', 'UK']}
df = pd.DataFrame(data)

#從DataFrame中隨機選取2行數據
df_sample = df.sample(n=2)

print(df_sample)

在上面的代碼中，我們使用sample方法從df DataFrame中隨機選取了2行數據。我們可以看到，它返回了一個新的DataFrame，其中包括兩個隨機選擇的行。

二、採樣比例

當我們處理非常大的數據集時，我們可能不需要全部數據，而是需要從整個數據集中選擇一小部分數據進行分析。我們可以使用frac參數來指定採樣比例。

import pandas as pd

#創建一個DataFrame
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],'Age': [28, 34, 29, 42],'Country':['US', 'UK', 'US', 'UK']}
df = pd.DataFrame(data)

#從DataFrame中選擇50%的數據。
df_sample = df.sample(frac=0.5, random_state=1)

print(df_sample)

在上面的代碼中，我們使用frac參數從df DataFrame中隨機選擇50%的行。我們可以看到，它返回了一個新的DataFrame，其中包括50%的隨機選擇的行。

三、重複採樣

有時我們需要重複採樣，即從原始數據集中選擇一些隨機數據，然後再進行另一輪隨機選擇。

import pandas as pd

#創建一個DataFrame
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],'Age': [28, 34, 29, 42],'Country':['US', 'UK', 'US', 'UK']}
df = pd.DataFrame(data)

#從DataFrame中進行50%的隨機選擇，並重複採樣5次。
df_sample = df.sample(frac=0.5, replace=True, random_state=1)
for i in range(5):
    df_sample = df_sample.sample(frac=0.5, replace=True, random_state=1)

print(df_sample)

在上面的代碼中，我們從df DataFrame中進行50%的隨機選擇，並重複採樣5次。replace=True參數允許我們重複選擇相同的行。我們可以看到，它返回了一個由重複採樣隨機選擇的數據行構成的新DataFrame。

四、隨機採樣列

與採樣行相比，還可以使用sample方法從DataFrame中選擇隨機列。在這種情況下，我們可以使用axis = 1參數將操作的方向設置為列。

import pandas as pd

#創建一個DataFrame
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],'Age': [28, 34, 29, 42],'Country':['US', 'UK', 'US', 'UK']}
df = pd.DataFrame(data)

#從DataFrame中選擇兩個隨機列。
df_sample = df.sample(n=2, axis=1, random_state=1)

print(df_sample)

在上面的代碼中，我們使用axis = 1參數從DataFrame中隨機選擇2列。我們可以看到，它返回了由兩個隨機選擇的列構成的新DataFrame。

五、按值採樣

有時候，我們需要按列中的某些值進行隨機採樣。這裡，我們可以使用weights參數控制樣本中每個元素的權重。

import pandas as pd

#創建一個DataFrame
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],'Age': [28, 34, 29, 42],'Country':['US', 'UK', 'US', 'UK']}
df = pd.DataFrame(data)

#將weights參數設置為Age列中的值，按值進行隨機採樣。
df_sample = df.sample(n=2, weights=df['Age'], random_state=1)

print(df_sample)

在上面的代碼中，我們將weights參數設置為Age列中的值，按照這些值進行隨機採樣。我們可以看到，它返回了由兩個隨機選擇的行構成的新DataFrame，這些行被選中的可能性與它們Age列中的值成正比。

六、如何隨機數

在上面的例子中，我們多次使用了random_state參數。這個參數的值就是隨機數生成器種子。固定random_state參數的值可以確保每次運行代碼時，我們都得到相同的隨機採樣結果。如果不固定這個參數，我們可能會得到不同的採樣結果。

import pandas as pd

#創建一個DataFrame
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],'Age': [28, 34, 29, 42],'Country':['US', 'UK', 'US', 'UK']}
df = pd.DataFrame(data)

#從DataFrame中隨機選擇2行數據。
df_sample = df.sample(n=2, random_state=1)

print(df_sample)

#再次隨機採樣。
df_sample = df.sample(n=2, random_state=2)

print(df_sample)

在上面的代碼中，我們隨機選擇了2行數據。我們知道，每次運行代碼時，使用相同的random_state值我們可以得到相同的結果。如果使用不同的random_state值，我們將得到不同的結果。

七、總結

本文深入介紹了DataFrame中sample方法的使用及其常用的參數。我們可以使用sample方法從DataFrame中隨機選擇樣本行或列，可以控制採樣比例，可以進行重複採樣和按值採樣。同時，我們還演示了如何使用random_state參數來確保每次得到相同的隨機結果。在實際應用中，sample方法可以幫助我們優雅地處理大規模數據。

原創文章，作者：MHEW，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/137991.html