一、基本概念
annovar是一個用於注釋基因組變異信息的工具,它可以將人類基因組參考資料庫中的基因注釋信息與樣本中檢測到的變異信息進行比對。
annovar最初基於perl語言開發,並集成了數十個公共基因組注釋資料庫,包括refGene、ensGene、clinvar、dbSNP等,支持多種變異類型(包括SNVs、indels、CNVs、結構變異等)的注釋,並能夠在不同物種之間切換。
annovar的輸入格式支持多種文件,包括vcf、bed、txt、maf等,輸出格式包括文本、CSV等,使用非常靈活方便。
二、安裝指南
annovar的安裝非常簡單,只需在https://annovar.openbioinformatics.org/en/latest/user-guide/download/頁面下載最新版本源碼包,解壓後進入目錄,執行perl命令即可:
tar xvfz annovar.latest.tar.gz cd annovar perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/ perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar esp6500siv2_all humandb/
上述命令下載並安裝了hg19版本的參考基因組資料庫以及其他公共資料庫,humandb目錄中存放了各種資料庫文件和索引文件,現在就可以開始注釋基因變異了。
三、輸入格式
annovar支持多種輸入格式,包括vcf、bed、txt、maf等,下面以vcf格式為例進行說明:
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT SAMPLE 22 17072140 . C T PASS . AC=1;AF=0.5;AN=2;DP=9;ExcessHet=3.0103;FS=0;MLEAC=1;MLEAF=0.5;MQ=60;QD=30;SOR=0.693 GT:AD:DP:GQ:PL 0/1:5,4:9:99:143,0,104
vcf文件的每一行代表一個變異位點,第一列是染色體號,第二列是位置,第三列是變異位點ID,第四列是參考序列,第五列是變異後的序列,後面的列是各種變異信息的注釋。
四、輸出格式
annovar的輸出格式非常靈活,包括文本、CSV、VCF等,可以直接在終端查看,也可以寫文件保存。下面是一個樣例輸出:
Chr Start End Ref Alt Func.refGene Gene.refGene GeneDetail.refGene ExonicFunc.refGene AAChange.refGene PopFreqMax 1000G_ALL.. 1000G_AFR.. 1000G_AMR.. 1000G_ASJ.. 1000G_EUR.. ESP6500_ALL.. ESP6500_AA.. ESP6500_EA.. avsnp147 SIFT_score SIFT_pred Polyphen2_HDIV_score Polyphen2_HDIV_pred Polyphen2_HVAR_score Polyphen2_HVAR_pred LRT_score LRT_pred MutationTaster_score MutationTaster_pred MutationAssessor_score MutationAssessor_pred FATHMM_score FATHMM_pred RadialSVM_score RadialSVM_pred LR_score LR_pred VEST3_score CADD_raw CADD_phred GERP_RS R PhyloP46way PhyloP100way SiPhy_29way_logOdds COSMIC_CNT Mutation_Assessor RuCa_CNT ExAC_ALL ExAC_AFR ExAC_AMR ExAC_EAS ExAC_FIN ExAC_NFE ExAC_OTH ExAC_SAS clinvar_20160302 Interpro_domain annovar_annotation 22 17072140 17072140 C T exonic PHKG2 . nonsynonymous SNVs PHKG2:NM_201597:exon3:c.214G>A:p.Gly72Ser&NM_001134077:exon5:c.305G>A:p.Gly102Ser 0.002854 . . . . . 0.0008241 . . rs136086422 0.13 T 0.983 B 0.003 B 0.953 D 0.3103 A 0.9807 D 0.0003 D 0.0026 D 0.4608 D 0.0001 D 2.15448 18.8 -0.01 -0.53 8.67 2.4279713841541886 . . . . benign(1);benign(1);benign(1);benign(1); . Annotation of gene mutations
輸出結果包括各種常見資料庫注釋信息、功能預測信息、變異頻率信息、臨床意義等,信息非常齊全。
五、常用參數
annovar提供了大量的參數,用於控制注釋的層次和細節,下面列舉一些常用的參數:
1. -protocol: 指定注釋的資料庫,可以同時指定多個,以逗號分隔。
2. -operation: 指定注釋的操作,包括g、f、r、c四種,分別表示基因級別注釋、區域級別注釋、區間重注釋、合併重複注釋。
3. -buildver: 指定參考基因組版本,包括hg18、hg19、hg38等。
4. -splicing_threshold: 指定剪切區域內變異的影響程度,可以是Exonic、Splicing或Intron等。
5. -vcfinput: 指定輸入文件格式為vcf,可省略。
下面是一個示例代碼:
perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/ perl table_annovar.pl example/ex1.avinput humandb/ -buildver hg19 -out myanno -remove -protocol refGene,dbnsfp35a -operation g,f -nastring . -csvout -polish -xreffile humandb/gene_fullxref.txt -v
六、注意事項
使用annovar注釋工具時需要注意以下事項:
1. 資料庫更新:annovar內置的資料庫沒有定期更新,需要在使用前手動下載最新數據。
2. 資料庫選擇:需要根據研究對象和研究目的選擇合適的資料庫。
3. 重複注釋:如果輸入位點包含重複變異信息,可以使用merged.vcf文件合併,並將合併後的文件重新輸入注釋,避免結果錯誤。
七、結語
annovar是一個功能強大、使用靈活的基因組變異注釋工具,可以很好地輔助基因組學與生物信息學研究,幫助我們更深入地理解人類基因組和基因變異的意義。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/185982.html