Annovar:基因注释分析工具

一、Annovar使用

Annovar是一个广泛使用的基因注释分析工具,可用于处理各种生物信息学应用。简单来说,使用Annovar可以轻松地将基因变异的信息与现有的数据库进行比较,以获得有关该变异可能影响哪些基因的预测。Annovar内置许多流行的数据库(例如dbSNP,1000基因组计划等),可用于基因变异的注释。

Annovar的使用有几个步骤:准备输入数据,选择参考基因组,运行注释程序,查看注释结果。在这里,我们将演示如何使用Annovar对一个VCF文件进行注释处理。

首先,请确保您已安装Annovar,并从其官方网站(http://www.openbioinformatics.org/annovar/annovar_download_form.php)下载最新版本。接下来,我们需要准备输入数据。在本示例中,我们将使用包含一些基因变异信息的VCF文件。以下是输入文件的示例内容:

#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO
chr1    880459  .       T       C       50.0    .       .
chr1    880766  .       C       A       50.0    .       .
chr1    937262  .       T       C       50.0    .       .
chr1    937363  .       G       A       50.0    .       .

然后,我们需要选择参考基因组。例如,如果您正在处理人类基因组数据,则可以将参考基因组设置为hg19,这是Annovar中最常用的参考基因组之一。在命令行中运行以下命令即可:

annotate_variation.pl -buildver hg19 input.vcf humandb/

最后,我们运行注释程序,并查看注释结果。运行以下命令:

table_annovar.pl input.vcf ./humandb/ -buildver hg19 -out output -remove -protocol refGene,avsnp150,dbnsfp35c,clinvar_20190305 -operation g,f,f,f -nastring .

在此示例中,我们使用refGene、avsnp150、dbnsfp35c和clinvar_20190305等协议进行注释,-operation g,f,f,f指示对每个协议使用不同的注释操作。这些操作标志表示gene-based(g)或functional(f)注释。输出结果将存储在output.hg19_multianno.txt文件中。

二、Annovar注释vcf

VCF是一种存储基因组变异信息的常见格式。使用Annovar可以轻松地将该格式的输入文件进行注释。以下是注释VCF文件的示例命令:

annotate_variation.pl -buildver hg19 input.vcf humandb/

在这个例子中,我们使用hg19作为参考基因组,并将输入文件名设置为input.vcf。注释结果将存储在同一目录中的.input.vcf.hg19_multianno.txt文件中。

三、Annovar怎么读

Annovar可以从命令行或脚本中使用,其操作非常简单。您只需要正确设置参考基因组和协议参数即可。以下是一个例子:

table_annovar.pl input.vcf ./humandb/ -buildver hg19 -out output -remove -protocol refGene,avsnp150,dbnsfp35c,clinvar_20190305 -operation g,f,f,f -nastring .

在这个例子中,我们使用refGene、avsnp150、dbnsfp35c和clinvar_20190305等协议进行注释,-operation g,f,f,f指示对每个协议使用不同的注释操作。输出结果将存储在output.hg19_multianno.txt文件中。

四、Annovar注释结果

Annovar注释结果通常存储在一个文本文件中,其中每行表示一个输入变异的注释,包括变异的位置、参考和替代碱基、注释协议和其相应的注释结果。以下是一个注释结果文件的示例:

Chr      Start    End      Ref   Alt           Func.refGene  Gene.refGene        ExonicFunc.refGene  1000g2015aug_all  avsnp144           SIFT_score  SIFT_pred  Polyphen2_HDIV_score  Polyphen2_HDIV_pred  Polyphen2_HVAR_score  Polyphen2_HVAR_pred  LRT_score  LRT_pred  MutationTaster_score  MutationTaster_pred  MetaSVM_score  MetaSVM_pred  MetaLR_score  MetaLR_pred  VEST3_score  CADD_raw  CADD_phred  DANN_score  fathmmMKL_coding_score  fathmmMKL_coding_pred  fathmmMKL_noncoding_score  fathmmMKL_noncoding_pred  Eigen_coding_or_noncoding  Eigen_raw      Eigen_phred      GenoCanyon_score      Integrated_fitCons_score  integrated_confidence_value score_interpretation    GERP++_RS  phyloP100way_vertebrate  phyloP30way_mammalian  phastCons100way_vertebrate  phastCons30way_mammalian  SiPhy_29way_logOdds
chr1     10177    10177    A     ACCCTAACCTAACTCC  intronic      DDX11L1            .                    .                 rs750505245        .           .          .                    .                    .                     .                    .          .           .                     .                   .             .            .             .            .          .          .            .           .          .            .                   .                           .                        1.24       3.61                     1.00                  0.990                  -1.04                 0.375               4.69           D           1.00                  D            -0.10        20.70        0.992070              .                         .                           Neutral                      5.43      2.98                   0.911773                  0.979                 17.20
chr1     10235    10235    T     A                exonic        DDX11L1            nonsynonymous_SNV   .                 rs118078859        0.04        T          0.013                B                    0.000                 B                    0.00       N           1.000                 N                   -0.122        A            -0.098        A          0.4198     14.10      0.987          .                         .                           Neutral                      5.37      2.69                  0.474006                   1.587                 11.32
chr1     10352    10352    G     A                exonic        DDX11L1            synonymous_SNV     .                 rs3934834          .           .          .                    .                    .                     .                    .          .           .                     .                   .             .            .             .            .          .          .            .           .          .            .                   .                           .                        1.77       4.62                   0.624162                  0.899                 18.10

在此示例中,我们注释了三个基因变异,分别在Chr1的10177、10235和10352位点。每个变异都在不同的位置,氨基酸改变也不同。注释结果文件给出了该位置上所有可用数据库的注释。一些常见的注释包括ExonicFunc.refGene,SIFT_score和Polyphen2_HDIV_score,这些注释指示某些变异可能存在大的影响或生物学意义。

五、Annovar安装和Galaxy选取

Annovar可以在Linux、Mac OS X和Windows上运行。您可以从其官方网站(http://www.openbioinformatics.org/annovar/annovar_download_form.php)下载该工具的最新版本。安装非常简单,您只需要解压缩下载的文件,然后运行其中的任意一个Perl脚本即可。

Annovar还可以与Galaxy工作流程一起使用。Galaxy是一种适用于各种生物信息学分析的开放源代码平台。Galaxy为用户提供了一个图形用户界面和一些流行的软件包,可以轻松进行各种分析管道。以下是使用Galaxy进行Annovar分析的示例步骤:

1、打开Galaxy主页(https://usegalaxy.org/)。
2、上传您的VCF文件。
3、选择“Annovar”工具,然后打开它。
4、选择您的输入文件和要使用的数据库。
5、运行工具并查看结果。

在Galaxy中使用Annovar非常简单,具有极大的便利性和易于使用性。

原创文章,作者:小蓝,如若转载,请注明出处:https://www.506064.com/n/235577.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
小蓝小蓝
上一篇 2024-12-12 11:55
下一篇 2024-12-12 11:56

相关推荐

  • Python字典去重复工具

    使用Python语言编写字典去重复工具,可帮助用户快速去重复。 一、字典去重复工具的需求 在使用Python编写程序时,我们经常需要处理数据文件,其中包含了大量的重复数据。为了方便…

    编程 2025-04-29
  • 如何通过jstack工具列出假死的java进程

    假死的java进程是指在运行过程中出现了某些问题导致进程停止响应,此时无法通过正常的方式关闭或者重启该进程。在这种情况下,我们可以借助jstack工具来获取该进程的进程号和线程号,…

    编程 2025-04-29
  • 注册表取证工具有哪些

    注册表取证是数字取证的重要分支,主要是获取计算机系统中的注册表信息,进而分析痕迹,获取重要证据。本文将以注册表取证工具为中心,从多个方面进行详细阐述。 一、注册表取证工具概述 注册…

    编程 2025-04-29
  • Python运维工具用法介绍

    本文将从多个方面介绍Python在运维工具中的应用,包括但不限于日志分析、自动化测试、批量处理、监控等方面的内容,希望能对Python运维工具的使用有所帮助。 一、日志分析 在运维…

    编程 2025-04-28
  • t3.js:一个全能的JavaScript动态文本替换工具

    t3.js是一个非常流行的JavaScript动态文本替换工具,它是一个轻量级库,能够很容易地实现文本内容的递增、递减、替换、切换以及其他各种操作。在本文中,我们将从多个方面探讨t…

    编程 2025-04-28
  • Trocket:打造高效可靠的远程控制工具

    如何使用trocket打造高效可靠的远程控制工具?本文将从以下几个方面进行详细的阐述。 一、安装和使用trocket trocket是一个基于Python实现的远程控制工具,使用时…

    编程 2025-04-28
  • gfwsq9ugn:全能编程开发工程师的必备工具

    gfwsq9ugn是一个强大的编程工具,它为全能编程开发工程师提供了一系列重要的功能和特点,下面我们将从多个方面对gfwsq9ugn进行详细的阐述。 一、快速编写代码 gfwsq9…

    编程 2025-04-28
  • Python 编写密码安全检查工具

    本文将介绍如何使用 Python 编写一个能够检查用户输入密码安全强度的工具。 一、安全强度的定义 在实现安全检查之前,首先需要明确什么是密码的安全强度。密码的安全强度通常包括以下…

    编程 2025-04-27
  • Morphis: 更加简便、灵活的自然语言处理工具

    本文将会从以下几个方面对Morphis进行详细的阐述: 一、Morphis是什么 Morphis是一个开源的Python自然语言处理库,用于处理中心语言(目前仅支持英文)中的词性标…

    编程 2025-04-27
  • HR测试用例生成工具:hrtest的全面解析

    本文将从使用、功能、优点和代码示例等多个方面详细介绍HR测试用例生成工具hrtest。 一、使用 HR测试用例生成工具hrtest是一款可以自动生成测试用例的工具,省去了繁琐的手动…

    编程 2025-04-27

发表回复

登录后才能评论