一、什麼是Benjamini-Hochberg方法
Benjamini-Hochberg方法是一種控制誤差率的統計方法,它可以在多個假設檢驗中控制總的誤差率。假設檢驗通常會返回一些拒絕原假設或不拒絕原假設的結果。 Benjamini-Hochberg方法用於控制在多個假設檢驗中拒絕原假設的錯誤率。
它以最小化總的假陽性錯誤率(False Discovery Rate,以下簡稱FDR)的形式為基礎解決問題。
二、API使用介紹
下面介紹 Benjamini-Hochberg 的 API 使用:
from statsmodels.stats.multitest import multipletests reject, p_vals_corrected, alphacSidak, alphacBonf = multipletests(p_vals, alpha=0.05, method='fdr_bh')
其中,參數 `p_vals` 是一維的 p-value 數組,`alpha` 是需要控制的誤差率,方法選擇 fdr_bh 代表了使用 Benjamini-Hochberg 方法進行誤差率的控制。
函數返回了四個值,依次是:
- `reject`:布爾型數組,用於判斷對應 p-value 是否拒絕原假設
- `p_vals_corrected`:multipletests 方法返回的從多重比較中調整的 p-value
- `alphacSidak`: Sigmoid 校正方法返回的 alpha,以保證產品族拒絕原假設的假陽性率
- `alphacBonf`: Bonferroni 校正方法返回的 alpha,以保證族最多假陽性的拒絕率
三、Benjamini Hochberg 的實際應用
Benjamini-Hochberg 方法已經成為高通量數據分析中控制誤差的標配方法之一。其實際應用領域包括基因表達、氣相色譜、質譜等數據的分析。
例如,在基因表達研究中,通過將基因表達的細胞分為兩組,實驗組和對照組,可以通過掃描若干基因得到大量的 p-value。同樣,在研究中也可能有更多的因素會影響對數據的解釋。
Benjamini-Hochberg 方法可以處理這些誤差率,減少 false positive 的數量。在實踐中,人們經常使用 Benjamin-Hochberg 方法,以便僅在針對一些後續實驗進行的假設檢驗時,考慮到此類實驗可能會導致處理了大量數據再次檢驗其集中性。
參考鏈接
– Benjamini, Y., & Hochberg, Y. (1995). Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society, Series B (Methodological), 57(1), 289–300. Doi: 10.1111/j.2517-6161.1995.tb02031.x.
– Storey, J. D. (2002). A direct approach to false discovery rates. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 64(3), 479–498. Doi: 10.1111/1467-9868.00346.
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/153924.html