DataFrame是Pandas庫中非常重要的數據結構,而sample是用於Dataframe中的取樣函數之一。它允許您從DataFrame中選擇要進行分析或處理的隨機樣本。本文將會深入探討sample的使用及其參數,為您展示如何在DataFrame中使用sample方法。
一、隨機採樣
在訓練模型或分析數據時,我們經常需要從給定的DataFrame數據集中提取隨機樣本進行分析。這時,我們可以使用sample方法。該方法可以從DataFrame中隨機地選擇一些行或列,並將其組成一個新的DataFrame。
import pandas as pd
#創建一個DataFrame
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],'Age': [28, 34, 29, 42],'Country':['US', 'UK', 'US', 'UK']}
df = pd.DataFrame(data)
#從DataFrame中隨機選取2行數據
df_sample = df.sample(n=2)
print(df_sample)
在上面的代碼中,我們使用sample方法從df DataFrame中隨機選取了2行數據。我們可以看到,它返回了一個新的DataFrame,其中包括兩個隨機選擇的行。
二、採樣比例
當我們處理非常大的數據集時,我們可能不需要全部數據,而是需要從整個數據集中選擇一小部分數據進行分析。我們可以使用frac參數來指定採樣比例。
import pandas as pd
#創建一個DataFrame
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],'Age': [28, 34, 29, 42],'Country':['US', 'UK', 'US', 'UK']}
df = pd.DataFrame(data)
#從DataFrame中選擇50%的數據。
df_sample = df.sample(frac=0.5, random_state=1)
print(df_sample)
在上面的代碼中,我們使用frac參數從df DataFrame中隨機選擇50%的行。我們可以看到,它返回了一個新的DataFrame,其中包括50%的隨機選擇的行。
三、重複採樣
有時我們需要重複採樣,即從原始數據集中選擇一些隨機數據,然後再進行另一輪隨機選擇。
import pandas as pd
#創建一個DataFrame
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],'Age': [28, 34, 29, 42],'Country':['US', 'UK', 'US', 'UK']}
df = pd.DataFrame(data)
#從DataFrame中進行50%的隨機選擇,並重複採樣5次。
df_sample = df.sample(frac=0.5, replace=True, random_state=1)
for i in range(5):
df_sample = df_sample.sample(frac=0.5, replace=True, random_state=1)
print(df_sample)
在上面的代碼中,我們從df DataFrame中進行50%的隨機選擇,並重複採樣5次。replace=True參數允許我們重複選擇相同的行。我們可以看到,它返回了一個由重複採樣隨機選擇的數據行構成的新DataFrame。
四、隨機採樣列
與採樣行相比,還可以使用sample方法從DataFrame中選擇隨機列。在這種情況下,我們可以使用axis = 1參數將操作的方向設置為列。
import pandas as pd
#創建一個DataFrame
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],'Age': [28, 34, 29, 42],'Country':['US', 'UK', 'US', 'UK']}
df = pd.DataFrame(data)
#從DataFrame中選擇兩個隨機列。
df_sample = df.sample(n=2, axis=1, random_state=1)
print(df_sample)
在上面的代碼中,我們使用axis = 1參數從DataFrame中隨機選擇2列。我們可以看到,它返回了由兩個隨機選擇的列構成的新DataFrame。
五、按值採樣
有時候,我們需要按列中的某些值進行隨機採樣。這裡,我們可以使用weights參數控制樣本中每個元素的權重。
import pandas as pd
#創建一個DataFrame
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],'Age': [28, 34, 29, 42],'Country':['US', 'UK', 'US', 'UK']}
df = pd.DataFrame(data)
#將weights參數設置為Age列中的值,按值進行隨機採樣。
df_sample = df.sample(n=2, weights=df['Age'], random_state=1)
print(df_sample)
在上面的代碼中,我們將weights參數設置為Age列中的值,按照這些值進行隨機採樣。我們可以看到,它返回了由兩個隨機選擇的行構成的新DataFrame,這些行被選中的可能性與它們Age列中的值成正比。
六、如何隨機數
在上面的例子中,我們多次使用了random_state參數。這個參數的值就是隨機數生成器種子。固定random_state參數的值可以確保每次運行代碼時,我們都得到相同的隨機採樣結果。如果不固定這個參數,我們可能會得到不同的採樣結果。
import pandas as pd
#創建一個DataFrame
data = {'Name': ['Tom', 'Jack', 'Steve', 'Ricky'],'Age': [28, 34, 29, 42],'Country':['US', 'UK', 'US', 'UK']}
df = pd.DataFrame(data)
#從DataFrame中隨機選擇2行數據。
df_sample = df.sample(n=2, random_state=1)
print(df_sample)
#再次隨機採樣。
df_sample = df.sample(n=2, random_state=2)
print(df_sample)
在上面的代碼中,我們隨機選擇了2行數據。我們知道,每次運行代碼時,使用相同的random_state值我們可以得到相同的結果。如果使用不同的random_state值,我們將得到不同的結果。
七、總結
本文深入介紹了DataFrame中sample方法的使用及其常用的參數。我們可以使用sample方法從DataFrame中隨機選擇樣本行或列,可以控制採樣比例,可以進行重複採樣和按值採樣。同時,我們還演示了如何使用random_state參數來確保每次得到相同的隨機結果。在實際應用中,sample方法可以幫助我們優雅地處理大規模數據。
原創文章,作者:MHEW,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/137991.html