一、Annovar使用
Annovar是一個廣泛使用的基因注釋分析工具,可用於處理各種生物信息學應用。簡單來說,使用Annovar可以輕鬆地將基因變異的信息與現有的資料庫進行比較,以獲得有關該變異可能影響哪些基因的預測。Annovar內置許多流行的資料庫(例如dbSNP,1000基因組計劃等),可用於基因變異的注釋。
Annovar的使用有幾個步驟:準備輸入數據,選擇參考基因組,運行注釋程序,查看注釋結果。在這裡,我們將演示如何使用Annovar對一個VCF文件進行注釋處理。
首先,請確保您已安裝Annovar,並從其官方網站(http://www.openbioinformatics.org/annovar/annovar_download_form.php)下載最新版本。接下來,我們需要準備輸入數據。在本示例中,我們將使用包含一些基因變異信息的VCF文件。以下是輸入文件的示例內容:
#CHROM POS ID REF ALT QUAL FILTER INFO chr1 880459 . T C 50.0 . . chr1 880766 . C A 50.0 . . chr1 937262 . T C 50.0 . . chr1 937363 . G A 50.0 . .
然後,我們需要選擇參考基因組。例如,如果您正在處理人類基因組數據,則可以將參考基因組設置為hg19,這是Annovar中最常用的參考基因組之一。在命令行中運行以下命令即可:
annotate_variation.pl -buildver hg19 input.vcf humandb/
最後,我們運行注釋程序,並查看注釋結果。運行以下命令:
table_annovar.pl input.vcf ./humandb/ -buildver hg19 -out output -remove -protocol refGene,avsnp150,dbnsfp35c,clinvar_20190305 -operation g,f,f,f -nastring .
在此示例中,我們使用refGene、avsnp150、dbnsfp35c和clinvar_20190305等協議進行注釋,-operation g,f,f,f指示對每個協議使用不同的注釋操作。這些操作標誌表示gene-based(g)或functional(f)注釋。輸出結果將存儲在output.hg19_multianno.txt文件中。
二、Annovar注釋vcf
VCF是一種存儲基因組變異信息的常見格式。使用Annovar可以輕鬆地將該格式的輸入文件進行注釋。以下是注釋VCF文件的示例命令:
annotate_variation.pl -buildver hg19 input.vcf humandb/
在這個例子中,我們使用hg19作為參考基因組,並將輸入文件名設置為input.vcf。注釋結果將存儲在同一目錄中的.input.vcf.hg19_multianno.txt文件中。
三、Annovar怎麼讀
Annovar可以從命令行或腳本中使用,其操作非常簡單。您只需要正確設置參考基因組和協議參數即可。以下是一個例子:
table_annovar.pl input.vcf ./humandb/ -buildver hg19 -out output -remove -protocol refGene,avsnp150,dbnsfp35c,clinvar_20190305 -operation g,f,f,f -nastring .
在這個例子中,我們使用refGene、avsnp150、dbnsfp35c和clinvar_20190305等協議進行注釋,-operation g,f,f,f指示對每個協議使用不同的注釋操作。輸出結果將存儲在output.hg19_multianno.txt文件中。
四、Annovar注釋結果
Annovar注釋結果通常存儲在一個文本文件中,其中每行表示一個輸入變異的注釋,包括變異的位置、參考和替代鹼基、注釋協議和其相應的注釋結果。以下是一個注釋結果文件的示例:
Chr Start End Ref Alt Func.refGene Gene.refGene ExonicFunc.refGene 1000g2015aug_all avsnp144 SIFT_score SIFT_pred Polyphen2_HDIV_score Polyphen2_HDIV_pred Polyphen2_HVAR_score Polyphen2_HVAR_pred LRT_score LRT_pred MutationTaster_score MutationTaster_pred MetaSVM_score MetaSVM_pred MetaLR_score MetaLR_pred VEST3_score CADD_raw CADD_phred DANN_score fathmmMKL_coding_score fathmmMKL_coding_pred fathmmMKL_noncoding_score fathmmMKL_noncoding_pred Eigen_coding_or_noncoding Eigen_raw Eigen_phred GenoCanyon_score Integrated_fitCons_score integrated_confidence_value score_interpretation GERP++_RS phyloP100way_vertebrate phyloP30way_mammalian phastCons100way_vertebrate phastCons30way_mammalian SiPhy_29way_logOdds chr1 10177 10177 A ACCCTAACCTAACTCC intronic DDX11L1 . . rs750505245 . . . . . . . . . . . . . . . . . . . . . . . 1.24 3.61 1.00 0.990 -1.04 0.375 4.69 D 1.00 D -0.10 20.70 0.992070 . . Neutral 5.43 2.98 0.911773 0.979 17.20 chr1 10235 10235 T A exonic DDX11L1 nonsynonymous_SNV . rs118078859 0.04 T 0.013 B 0.000 B 0.00 N 1.000 N -0.122 A -0.098 A 0.4198 14.10 0.987 . . Neutral 5.37 2.69 0.474006 1.587 11.32 chr1 10352 10352 G A exonic DDX11L1 synonymous_SNV . rs3934834 . . . . . . . . . . . . . . . . . . . . . . . 1.77 4.62 0.624162 0.899 18.10
在此示例中,我們注釋了三個基因變異,分別在Chr1的10177、10235和10352位點。每個變異都在不同的位置,氨基酸改變也不同。注釋結果文件給出了該位置上所有可用資料庫的注釋。一些常見的注釋包括ExonicFunc.refGene,SIFT_score和Polyphen2_HDIV_score,這些注釋指示某些變異可能存在大的影響或生物學意義。
五、Annovar安裝和Galaxy選取
Annovar可以在Linux、Mac OS X和Windows上運行。您可以從其官方網站(http://www.openbioinformatics.org/annovar/annovar_download_form.php)下載該工具的最新版本。安裝非常簡單,您只需要解壓縮下載的文件,然後運行其中的任意一個Perl腳本即可。
Annovar還可以與Galaxy工作流程一起使用。Galaxy是一種適用於各種生物信息學分析的開放源代碼平台。Galaxy為用戶提供了一個圖形用戶界面和一些流行的軟體包,可以輕鬆進行各種分析管道。以下是使用Galaxy進行Annovar分析的示例步驟:
1、打開Galaxy主頁(https://usegalaxy.org/)。
2、上傳您的VCF文件。
3、選擇「Annovar」工具,然後打開它。
4、選擇您的輸入文件和要使用的資料庫。
5、運行工具並查看結果。
在Galaxy中使用Annovar非常簡單,具有極大的便利性和易於使用性。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/235577.html