詳解annovar注釋工具

一、基本概念

annovar是一個用於注釋基因組變異信息的工具,它可以將人類基因組參考數據庫中的基因注釋信息與樣本中檢測到的變異信息進行比對。

annovar最初基於perl語言開發,並集成了數十個公共基因組注釋數據庫,包括refGene、ensGene、clinvar、dbSNP等,支持多種變異類型(包括SNVs、indels、CNVs、結構變異等)的注釋,並能夠在不同物種之間切換。

annovar的輸入格式支持多種文件,包括vcf、bed、txt、maf等,輸出格式包括文本、CSV等,使用非常靈活方便。

二、安裝指南

annovar的安裝非常簡單,只需在https://annovar.openbioinformatics.org/en/latest/user-guide/download/頁面下載最新版本源碼包,解壓後進入目錄,執行perl命令即可:

tar xvfz annovar.latest.tar.gz
cd annovar
perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/
perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar esp6500siv2_all humandb/

上述命令下載並安裝了hg19版本的參考基因組數據庫以及其他公共數據庫,humandb目錄中存放了各種數據庫文件和索引文件,現在就可以開始注釋基因變異了。

三、輸入格式

annovar支持多種輸入格式,包括vcf、bed、txt、maf等,下面以vcf格式為例進行說明:

#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  SAMPLE
22      17072140        .       C       T       PASS    .       AC=1;AF=0.5;AN=2;DP=9;ExcessHet=3.0103;FS=0;MLEAC=1;MLEAF=0.5;MQ=60;QD=30;SOR=0.693     GT:AD:DP:GQ:PL  0/1:5,4:9:99:143,0,104

vcf文件的每一行代表一個變異位點,第一列是染色體號,第二列是位置,第三列是變異位點ID,第四列是參考序列,第五列是變異後的序列,後面的列是各種變異信息的注釋。

四、輸出格式

annovar的輸出格式非常靈活,包括文本、CSV、VCF等,可以直接在終端查看,也可以寫文件保存。下面是一個樣例輸出:

Chr     Start   End     Ref     Alt     Func.refGene    Gene.refGene    GeneDetail.refGene      ExonicFunc.refGene      AAChange.refGene        PopFreqMax      1000G_ALL..    1000G_AFR..    1000G_AMR..    1000G_ASJ..    1000G_EUR..    ESP6500_ALL..   ESP6500_AA..    ESP6500_EA..    avsnp147        SIFT_score      SIFT_pred       Polyphen2_HDIV_score    Polyphen2_HDIV_pred     Polyphen2_HVAR_score    Polyphen2_HVAR_pred     LRT_score       LRT_pred        MutationTaster_score    MutationTaster_pred     MutationAssessor_score  MutationAssessor_pred   FATHMM_score    FATHMM_pred     RadialSVM_score RadialSVM_pred  LR_score        LR_pred        VEST3_score     CADD_raw        CADD_phred      GERP_RS R       PhyloP46way     PhyloP100way    SiPhy_29way_logOdds     COSMIC_CNT      Mutation_Assessor       RuCa_CNT        ExAC_ALL        ExAC_AFR        ExAC_AMR        ExAC_EAS        ExAC_FIN        ExAC_NFE        ExAC_OTH        ExAC_SAS        clinvar_20160302        Interpro_domain annovar_annotation
22      17072140        17072140        C       T       exonic  PHKG2   .       nonsynonymous SNVs     PHKG2:NM_201597:exon3:c.214G>A:p.Gly72Ser&NM_001134077:exon5:c.305G>A:p.Gly102Ser  0.002854        .       .       .       .       .       0.0008241       .       .       rs136086422     0.13    T       0.983   B   0.003   B   0.953   D   0.3103  A   0.9807  D   0.0003  D   0.0026  D   0.4608  D   0.0001  D   2.15448 18.8    -0.01   -0.53   8.67    2.4279713841541886      .       .       .       .       benign(1);benign(1);benign(1);benign(1); .       Annotation of gene mutations 

輸出結果包括各種常見數據庫注釋信息、功能預測信息、變異頻率信息、臨床意義等,信息非常齊全。

五、常用參數

annovar提供了大量的參數,用於控制注釋的層次和細節,下面列舉一些常用的參數:

1. -protocol: 指定注釋的數據庫,可以同時指定多個,以逗號分隔。

2. -operation: 指定注釋的操作,包括g、f、r、c四種,分別表示基因級別注釋、區域級別注釋、區間重注釋、合併重複注釋。

3. -buildver: 指定參考基因組版本,包括hg18、hg19、hg38等。

4. -splicing_threshold: 指定剪切區域內變異的影響程度,可以是Exonic、Splicing或Intron等。

5. -vcfinput: 指定輸入文件格式為vcf,可省略。

下面是一個示例代碼:

perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/
perl table_annovar.pl example/ex1.avinput humandb/ -buildver hg19 
-out myanno -remove -protocol refGene,dbnsfp35a -operation g,f -nastring . 
-csvout -polish -xreffile humandb/gene_fullxref.txt -v

六、注意事項

使用annovar注釋工具時需要注意以下事項:

1. 數據庫更新:annovar內置的數據庫沒有定期更新,需要在使用前手動下載最新數據。

2. 數據庫選擇:需要根據研究對象和研究目的選擇合適的數據庫。

3. 重複注釋:如果輸入位點包含重複變異信息,可以使用merged.vcf文件合併,並將合併後的文件重新輸入注釋,避免結果錯誤。

七、結語

annovar是一個功能強大、使用靈活的基因組變異注釋工具,可以很好地輔助基因組學與生物信息學研究,幫助我們更深入地理解人類基因組和基因變異的意義。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/185982.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-11-26 21:09
下一篇 2024-11-26 21:09

相關推薦

  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • 如何通過jstack工具列出假死的java進程

    假死的java進程是指在運行過程中出現了某些問題導致進程停止響應,此時無法通過正常的方式關閉或者重啟該進程。在這種情況下,我們可以藉助jstack工具來獲取該進程的進程號和線程號,…

    編程 2025-04-29
  • 註冊表取證工具有哪些

    註冊表取證是數字取證的重要分支,主要是獲取計算機系統中的註冊表信息,進而分析痕迹,獲取重要證據。本文將以註冊表取證工具為中心,從多個方面進行詳細闡述。 一、註冊表取證工具概述 註冊…

    編程 2025-04-29
  • Python運維工具用法介紹

    本文將從多個方面介紹Python在運維工具中的應用,包括但不限於日誌分析、自動化測試、批量處理、監控等方面的內容,希望能對Python運維工具的使用有所幫助。 一、日誌分析 在運維…

    編程 2025-04-28
  • t3.js:一個全能的JavaScript動態文本替換工具

    t3.js是一個非常流行的JavaScript動態文本替換工具,它是一個輕量級庫,能夠很容易地實現文本內容的遞增、遞減、替換、切換以及其他各種操作。在本文中,我們將從多個方面探討t…

    編程 2025-04-28
  • Trocket:打造高效可靠的遠程控制工具

    如何使用trocket打造高效可靠的遠程控制工具?本文將從以下幾個方面進行詳細的闡述。 一、安裝和使用trocket trocket是一個基於Python實現的遠程控制工具,使用時…

    編程 2025-04-28
  • gfwsq9ugn:全能編程開發工程師的必備工具

    gfwsq9ugn是一個強大的編程工具,它為全能編程開發工程師提供了一系列重要的功能和特點,下面我們將從多個方面對gfwsq9ugn進行詳細的闡述。 一、快速編寫代碼 gfwsq9…

    編程 2025-04-28
  • Python 編寫密碼安全檢查工具

    本文將介紹如何使用 Python 編寫一個能夠檢查用戶輸入密碼安全強度的工具。 一、安全強度的定義 在實現安全檢查之前,首先需要明確什麼是密碼的安全強度。密碼的安全強度通常包括以下…

    編程 2025-04-27
  • Morphis: 更加簡便、靈活的自然語言處理工具

    本文將會從以下幾個方面對Morphis進行詳細的闡述: 一、Morphis是什麼 Morphis是一個開源的Python自然語言處理庫,用於處理中心語言(目前僅支持英文)中的詞性標…

    編程 2025-04-27
  • HR測試用例生成工具:hrtest的全面解析

    本文將從使用、功能、優點和代碼示例等多個方面詳細介紹HR測試用例生成工具hrtest。 一、使用 HR測試用例生成工具hrtest是一款可以自動生成測試用例的工具,省去了繁瑣的手動…

    編程 2025-04-27

發表回復

登錄後才能評論