详解annovar注释工具

一、基本概念

annovar是一个用于注释基因组变异信息的工具,它可以将人类基因组参考数据库中的基因注释信息与样本中检测到的变异信息进行比对。

annovar最初基于perl语言开发,并集成了数十个公共基因组注释数据库,包括refGene、ensGene、clinvar、dbSNP等,支持多种变异类型(包括SNVs、indels、CNVs、结构变异等)的注释,并能够在不同物种之间切换。

annovar的输入格式支持多种文件,包括vcf、bed、txt、maf等,输出格式包括文本、CSV等,使用非常灵活方便。

二、安装指南

annovar的安装非常简单,只需在https://annovar.openbioinformatics.org/en/latest/user-guide/download/页面下载最新版本源码包,解压后进入目录,执行perl命令即可:

tar xvfz annovar.latest.tar.gz
cd annovar
perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/
perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar esp6500siv2_all humandb/

上述命令下载并安装了hg19版本的参考基因组数据库以及其他公共数据库,humandb目录中存放了各种数据库文件和索引文件,现在就可以开始注释基因变异了。

三、输入格式

annovar支持多种输入格式,包括vcf、bed、txt、maf等,下面以vcf格式为例进行说明:

#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO    FORMAT  SAMPLE
22      17072140        .       C       T       PASS    .       AC=1;AF=0.5;AN=2;DP=9;ExcessHet=3.0103;FS=0;MLEAC=1;MLEAF=0.5;MQ=60;QD=30;SOR=0.693     GT:AD:DP:GQ:PL  0/1:5,4:9:99:143,0,104

vcf文件的每一行代表一个变异位点,第一列是染色体号,第二列是位置,第三列是变异位点ID,第四列是参考序列,第五列是变异后的序列,后面的列是各种变异信息的注释。

四、输出格式

annovar的输出格式非常灵活,包括文本、CSV、VCF等,可以直接在终端查看,也可以写文件保存。下面是一个样例输出:

Chr     Start   End     Ref     Alt     Func.refGene    Gene.refGene    GeneDetail.refGene      ExonicFunc.refGene      AAChange.refGene        PopFreqMax      1000G_ALL..    1000G_AFR..    1000G_AMR..    1000G_ASJ..    1000G_EUR..    ESP6500_ALL..   ESP6500_AA..    ESP6500_EA..    avsnp147        SIFT_score      SIFT_pred       Polyphen2_HDIV_score    Polyphen2_HDIV_pred     Polyphen2_HVAR_score    Polyphen2_HVAR_pred     LRT_score       LRT_pred        MutationTaster_score    MutationTaster_pred     MutationAssessor_score  MutationAssessor_pred   FATHMM_score    FATHMM_pred     RadialSVM_score RadialSVM_pred  LR_score        LR_pred        VEST3_score     CADD_raw        CADD_phred      GERP_RS R       PhyloP46way     PhyloP100way    SiPhy_29way_logOdds     COSMIC_CNT      Mutation_Assessor       RuCa_CNT        ExAC_ALL        ExAC_AFR        ExAC_AMR        ExAC_EAS        ExAC_FIN        ExAC_NFE        ExAC_OTH        ExAC_SAS        clinvar_20160302        Interpro_domain annovar_annotation
22      17072140        17072140        C       T       exonic  PHKG2   .       nonsynonymous SNVs     PHKG2:NM_201597:exon3:c.214G>A:p.Gly72Ser&NM_001134077:exon5:c.305G>A:p.Gly102Ser  0.002854        .       .       .       .       .       0.0008241       .       .       rs136086422     0.13    T       0.983   B   0.003   B   0.953   D   0.3103  A   0.9807  D   0.0003  D   0.0026  D   0.4608  D   0.0001  D   2.15448 18.8    -0.01   -0.53   8.67    2.4279713841541886      .       .       .       .       benign(1);benign(1);benign(1);benign(1); .       Annotation of gene mutations 

输出结果包括各种常见数据库注释信息、功能预测信息、变异频率信息、临床意义等,信息非常齐全。

五、常用参数

annovar提供了大量的参数,用于控制注释的层次和细节,下面列举一些常用的参数:

1. -protocol: 指定注释的数据库,可以同时指定多个,以逗号分隔。

2. -operation: 指定注释的操作,包括g、f、r、c四种,分别表示基因级别注释、区域级别注释、区间重注释、合并重复注释。

3. -buildver: 指定参考基因组版本,包括hg18、hg19、hg38等。

4. -splicing_threshold: 指定剪切区域内变异的影响程度,可以是Exonic、Splicing或Intron等。

5. -vcfinput: 指定输入文件格式为vcf,可省略。

下面是一个示例代码:

perl annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/
perl table_annovar.pl example/ex1.avinput humandb/ -buildver hg19 
-out myanno -remove -protocol refGene,dbnsfp35a -operation g,f -nastring . 
-csvout -polish -xreffile humandb/gene_fullxref.txt -v

六、注意事项

使用annovar注释工具时需要注意以下事项:

1. 数据库更新:annovar内置的数据库没有定期更新,需要在使用前手动下载最新数据。

2. 数据库选择:需要根据研究对象和研究目的选择合适的数据库。

3. 重复注释:如果输入位点包含重复变异信息,可以使用merged.vcf文件合并,并将合并后的文件重新输入注释,避免结果错误。

七、结语

annovar是一个功能强大、使用灵活的基因组变异注释工具,可以很好地辅助基因组学与生物信息学研究,帮助我们更深入地理解人类基因组和基因变异的意义。

原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/185982.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小蓝小蓝
上一篇 2024-11-26 21:09
下一篇 2024-11-26 21:09

相关推荐

  • Python字典去重复工具

    使用Python语言编写字典去重复工具,可帮助用户快速去重复。 一、字典去重复工具的需求 在使用Python编写程序时,我们经常需要处理数据文件,其中包含了大量的重复数据。为了方便…

    编程 2025-04-29
  • 如何通过jstack工具列出假死的java进程

    假死的java进程是指在运行过程中出现了某些问题导致进程停止响应,此时无法通过正常的方式关闭或者重启该进程。在这种情况下,我们可以借助jstack工具来获取该进程的进程号和线程号,…

    编程 2025-04-29
  • 注册表取证工具有哪些

    注册表取证是数字取证的重要分支,主要是获取计算机系统中的注册表信息,进而分析痕迹,获取重要证据。本文将以注册表取证工具为中心,从多个方面进行详细阐述。 一、注册表取证工具概述 注册…

    编程 2025-04-29
  • Python运维工具用法介绍

    本文将从多个方面介绍Python在运维工具中的应用,包括但不限于日志分析、自动化测试、批量处理、监控等方面的内容,希望能对Python运维工具的使用有所帮助。 一、日志分析 在运维…

    编程 2025-04-28
  • t3.js:一个全能的JavaScript动态文本替换工具

    t3.js是一个非常流行的JavaScript动态文本替换工具,它是一个轻量级库,能够很容易地实现文本内容的递增、递减、替换、切换以及其他各种操作。在本文中,我们将从多个方面探讨t…

    编程 2025-04-28
  • Trocket:打造高效可靠的远程控制工具

    如何使用trocket打造高效可靠的远程控制工具?本文将从以下几个方面进行详细的阐述。 一、安装和使用trocket trocket是一个基于Python实现的远程控制工具,使用时…

    编程 2025-04-28
  • gfwsq9ugn:全能编程开发工程师的必备工具

    gfwsq9ugn是一个强大的编程工具,它为全能编程开发工程师提供了一系列重要的功能和特点,下面我们将从多个方面对gfwsq9ugn进行详细的阐述。 一、快速编写代码 gfwsq9…

    编程 2025-04-28
  • Python 编写密码安全检查工具

    本文将介绍如何使用 Python 编写一个能够检查用户输入密码安全强度的工具。 一、安全强度的定义 在实现安全检查之前,首先需要明确什么是密码的安全强度。密码的安全强度通常包括以下…

    编程 2025-04-27
  • Morphis: 更加简便、灵活的自然语言处理工具

    本文将会从以下几个方面对Morphis进行详细的阐述: 一、Morphis是什么 Morphis是一个开源的Python自然语言处理库,用于处理中心语言(目前仅支持英文)中的词性标…

    编程 2025-04-27
  • HR测试用例生成工具:hrtest的全面解析

    本文将从使用、功能、优点和代码示例等多个方面详细介绍HR测试用例生成工具hrtest。 一、使用 HR测试用例生成工具hrtest是一款可以自动生成测试用例的工具,省去了繁琐的手动…

    编程 2025-04-27

发表回复

登录后才能评论