什麼是Bootstrap
抽樣分布描述從總體的隨機樣本中獲取統計量的每個可能值的可能性;換句話說,該大小的所有隨機樣本中有多大比率將得到該值。Bootstrap是一種通過抽取多個樣本來估計抽樣分布的方法,這些樣本中包含單個隨機樣本的替換內容。這些重複樣本稱為重新採樣的樣本。每個重新採樣樣本的數量與原始樣本相同。Bootstrap是非參數統計中一種重要的估計統計量,並可進行統計量區間估計的統計方法,也稱為自助法(Minitab中翻譯為自舉法)。
「Bootstrap」來自短語「to pull oneself up by one』s bootstraps」 (源自西方神話故事「TheAdventures of Baron Munchausen」,男爵掉到了深湖底,沒有工具,所以他想到了拎著鞋帶將自己提起來)。Bootstrap在英語中作為一個名詞的話,其的意思是「拔靴帶」,也就是通過自身的力量,自己把自己抬起來。「通過自身的力量」——這是Bootstrap方法的核心所在。
什麼情況下使用Bootstrap方法?
1) 可以使用Bootstrap方法計算參數(均值、中位數、和、標準差或方差)的置信區間,或對參數進行假設檢驗。這種方法不需要假設觀測值的分布模型(傳統的假設檢驗要求正態分布不同)。
2) 當觀測值分布未知或用戶還沒有學到觀測值分布的概念時,這種方法就會變得很實用(Minitab在19版本中引入此方法,但是在教育版本Minitab Express一直有這個功能)。
Bootstrap方法的基本思想
1)採用重複抽樣技術從原始樣本中抽取一定數量(可自己給定,一般與原始樣本相同)的樣本,此過程允許重複抽樣(有放回)。
2)根據抽出的樣本計算待估計的統計量T。
3)重複上述N次(一般大於1000),得到N個統計量T。
4)計算上述N個統計量T的指標(均值、中位數、和、標準差或方差),以此估計統計量T的指標。
Minitab中的Bootstrap應用
在2019年6月5日發布的Minitab 19版本中,引入Bootstrao方法。

舉個例子:從一學校中隨機抽樣調查20名學生的身高,打算通過這20個人的身高估計該學校所有學生的身高(對20個人編號,身高數據如下表)。

這20個人的身高數據構成的樣本,我們稱為觀察樣本。
根據Bootstrap的基本思想,我們有放回的重複抽取1000次,每次的取樣量為20(每個重新採樣樣本的數量與原始樣本相同),得到1000個新的樣本。由於是有放回的取樣,那麼在每次取樣中,並不是編號1-20的每個人都可能被取到。如前5次的取樣結果如下,在第3次取樣中,連續4次取到編號為10的學生。

我們利用Minitab模擬完成此1000次取樣,操作如下。


Minitab結果解釋
在C2列,我們可以得到1000個均值,這1000個均值就是1000次取樣的均值。


在以上輸出結果中,我們可以看到1000次取樣均值的分布直方圖,大致呈正態分布(當然,我們也可以對C2列做正態性檢驗)。

「觀測到的樣本」表中反映的是20個學生的身高信息,比如說這20個學生的身高均值為170.10cm。

在這裡,我們更加感興趣的是「均值的Bootstrap樣本」表,在這裡,我們得到均值的95%置信均值(167.900,172.250)。這是非常有意義的,尤其是當你的數據非正態,甚至是分布未知的時候。當然除了均值的置信區間,我們還可以算得方差、標準差等其他統計量的置信均值。

小結
使用Bootstrap方法除了可以來計算未知分布統計量的置信區間,我們還可以用來進行假設檢驗(Minitab中稱為「隨機化檢驗」)。另外,這種方法對於我們理解「中心極限定理「也非常有用,如果你對此感興趣,歡迎下載Minitab 19.2免費30天試用。
原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/258942.html
微信掃一掃
支付寶掃一掃