Annovar:基因注釋分析工具

一、Annovar使用

Annovar是一個廣泛使用的基因注釋分析工具,可用於處理各種生物信息學應用。簡單來說,使用Annovar可以輕鬆地將基因變異的信息與現有的資料庫進行比較,以獲得有關該變異可能影響哪些基因的預測。Annovar內置許多流行的資料庫(例如dbSNP,1000基因組計劃等),可用於基因變異的注釋。

Annovar的使用有幾個步驟:準備輸入數據,選擇參考基因組,運行注釋程序,查看注釋結果。在這裡,我們將演示如何使用Annovar對一個VCF文件進行注釋處理。

首先,請確保您已安裝Annovar,並從其官方網站(http://www.openbioinformatics.org/annovar/annovar_download_form.php)下載最新版本。接下來,我們需要準備輸入數據。在本示例中,我們將使用包含一些基因變異信息的VCF文件。以下是輸入文件的示例內容:

#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO
chr1    880459  .       T       C       50.0    .       .
chr1    880766  .       C       A       50.0    .       .
chr1    937262  .       T       C       50.0    .       .
chr1    937363  .       G       A       50.0    .       .

然後,我們需要選擇參考基因組。例如,如果您正在處理人類基因組數據,則可以將參考基因組設置為hg19,這是Annovar中最常用的參考基因組之一。在命令行中運行以下命令即可:

annotate_variation.pl -buildver hg19 input.vcf humandb/

最後,我們運行注釋程序,並查看注釋結果。運行以下命令:

table_annovar.pl input.vcf ./humandb/ -buildver hg19 -out output -remove -protocol refGene,avsnp150,dbnsfp35c,clinvar_20190305 -operation g,f,f,f -nastring .

在此示例中,我們使用refGene、avsnp150、dbnsfp35c和clinvar_20190305等協議進行注釋,-operation g,f,f,f指示對每個協議使用不同的注釋操作。這些操作標誌表示gene-based(g)或functional(f)注釋。輸出結果將存儲在output.hg19_multianno.txt文件中。

二、Annovar注釋vcf

VCF是一種存儲基因組變異信息的常見格式。使用Annovar可以輕鬆地將該格式的輸入文件進行注釋。以下是注釋VCF文件的示例命令:

annotate_variation.pl -buildver hg19 input.vcf humandb/

在這個例子中,我們使用hg19作為參考基因組,並將輸入文件名設置為input.vcf。注釋結果將存儲在同一目錄中的.input.vcf.hg19_multianno.txt文件中。

三、Annovar怎麼讀

Annovar可以從命令行或腳本中使用,其操作非常簡單。您只需要正確設置參考基因組和協議參數即可。以下是一個例子:

table_annovar.pl input.vcf ./humandb/ -buildver hg19 -out output -remove -protocol refGene,avsnp150,dbnsfp35c,clinvar_20190305 -operation g,f,f,f -nastring .

在這個例子中,我們使用refGene、avsnp150、dbnsfp35c和clinvar_20190305等協議進行注釋,-operation g,f,f,f指示對每個協議使用不同的注釋操作。輸出結果將存儲在output.hg19_multianno.txt文件中。

四、Annovar注釋結果

Annovar注釋結果通常存儲在一個文本文件中,其中每行表示一個輸入變異的注釋,包括變異的位置、參考和替代鹼基、注釋協議和其相應的注釋結果。以下是一個注釋結果文件的示例:

Chr      Start    End      Ref   Alt           Func.refGene  Gene.refGene        ExonicFunc.refGene  1000g2015aug_all  avsnp144           SIFT_score  SIFT_pred  Polyphen2_HDIV_score  Polyphen2_HDIV_pred  Polyphen2_HVAR_score  Polyphen2_HVAR_pred  LRT_score  LRT_pred  MutationTaster_score  MutationTaster_pred  MetaSVM_score  MetaSVM_pred  MetaLR_score  MetaLR_pred  VEST3_score  CADD_raw  CADD_phred  DANN_score  fathmmMKL_coding_score  fathmmMKL_coding_pred  fathmmMKL_noncoding_score  fathmmMKL_noncoding_pred  Eigen_coding_or_noncoding  Eigen_raw      Eigen_phred      GenoCanyon_score      Integrated_fitCons_score  integrated_confidence_value score_interpretation    GERP++_RS  phyloP100way_vertebrate  phyloP30way_mammalian  phastCons100way_vertebrate  phastCons30way_mammalian  SiPhy_29way_logOdds
chr1     10177    10177    A     ACCCTAACCTAACTCC  intronic      DDX11L1            .                    .                 rs750505245        .           .          .                    .                    .                     .                    .          .           .                     .                   .             .            .             .            .          .          .            .           .          .            .                   .                           .                        1.24       3.61                     1.00                  0.990                  -1.04                 0.375               4.69           D           1.00                  D            -0.10        20.70        0.992070              .                         .                           Neutral                      5.43      2.98                   0.911773                  0.979                 17.20
chr1     10235    10235    T     A                exonic        DDX11L1            nonsynonymous_SNV   .                 rs118078859        0.04        T          0.013                B                    0.000                 B                    0.00       N           1.000                 N                   -0.122        A            -0.098        A          0.4198     14.10      0.987          .                         .                           Neutral                      5.37      2.69                  0.474006                   1.587                 11.32
chr1     10352    10352    G     A                exonic        DDX11L1            synonymous_SNV     .                 rs3934834          .           .          .                    .                    .                     .                    .          .           .                     .                   .             .            .             .            .          .          .            .           .          .            .                   .                           .                        1.77       4.62                   0.624162                  0.899                 18.10

在此示例中,我們注釋了三個基因變異,分別在Chr1的10177、10235和10352位點。每個變異都在不同的位置,氨基酸改變也不同。注釋結果文件給出了該位置上所有可用資料庫的注釋。一些常見的注釋包括ExonicFunc.refGene,SIFT_score和Polyphen2_HDIV_score,這些注釋指示某些變異可能存在大的影響或生物學意義。

五、Annovar安裝和Galaxy選取

Annovar可以在Linux、Mac OS X和Windows上運行。您可以從其官方網站(http://www.openbioinformatics.org/annovar/annovar_download_form.php)下載該工具的最新版本。安裝非常簡單,您只需要解壓縮下載的文件,然後運行其中的任意一個Perl腳本即可。

Annovar還可以與Galaxy工作流程一起使用。Galaxy是一種適用於各種生物信息學分析的開放源代碼平台。Galaxy為用戶提供了一個圖形用戶界面和一些流行的軟體包,可以輕鬆進行各種分析管道。以下是使用Galaxy進行Annovar分析的示例步驟:

1、打開Galaxy主頁(https://usegalaxy.org/)。
2、上傳您的VCF文件。
3、選擇「Annovar」工具,然後打開它。
4、選擇您的輸入文件和要使用的資料庫。
5、運行工具並查看結果。

在Galaxy中使用Annovar非常簡單,具有極大的便利性和易於使用性。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/235577.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-12 11:55
下一篇 2024-12-12 11:56

相關推薦

  • Python字典去重複工具

    使用Python語言編寫字典去重複工具,可幫助用戶快速去重複。 一、字典去重複工具的需求 在使用Python編寫程序時,我們經常需要處理數據文件,其中包含了大量的重複數據。為了方便…

    編程 2025-04-29
  • 如何通過jstack工具列出假死的java進程

    假死的java進程是指在運行過程中出現了某些問題導致進程停止響應,此時無法通過正常的方式關閉或者重啟該進程。在這種情況下,我們可以藉助jstack工具來獲取該進程的進程號和線程號,…

    編程 2025-04-29
  • 註冊表取證工具有哪些

    註冊表取證是數字取證的重要分支,主要是獲取計算機系統中的註冊表信息,進而分析痕迹,獲取重要證據。本文將以註冊表取證工具為中心,從多個方面進行詳細闡述。 一、註冊表取證工具概述 註冊…

    編程 2025-04-29
  • Python運維工具用法介紹

    本文將從多個方面介紹Python在運維工具中的應用,包括但不限於日誌分析、自動化測試、批量處理、監控等方面的內容,希望能對Python運維工具的使用有所幫助。 一、日誌分析 在運維…

    編程 2025-04-28
  • t3.js:一個全能的JavaScript動態文本替換工具

    t3.js是一個非常流行的JavaScript動態文本替換工具,它是一個輕量級庫,能夠很容易地實現文本內容的遞增、遞減、替換、切換以及其他各種操作。在本文中,我們將從多個方面探討t…

    編程 2025-04-28
  • Trocket:打造高效可靠的遠程控制工具

    如何使用trocket打造高效可靠的遠程控制工具?本文將從以下幾個方面進行詳細的闡述。 一、安裝和使用trocket trocket是一個基於Python實現的遠程控制工具,使用時…

    編程 2025-04-28
  • gfwsq9ugn:全能編程開發工程師的必備工具

    gfwsq9ugn是一個強大的編程工具,它為全能編程開發工程師提供了一系列重要的功能和特點,下面我們將從多個方面對gfwsq9ugn進行詳細的闡述。 一、快速編寫代碼 gfwsq9…

    編程 2025-04-28
  • Python 編寫密碼安全檢查工具

    本文將介紹如何使用 Python 編寫一個能夠檢查用戶輸入密碼安全強度的工具。 一、安全強度的定義 在實現安全檢查之前,首先需要明確什麼是密碼的安全強度。密碼的安全強度通常包括以下…

    編程 2025-04-27
  • Morphis: 更加簡便、靈活的自然語言處理工具

    本文將會從以下幾個方面對Morphis進行詳細的闡述: 一、Morphis是什麼 Morphis是一個開源的Python自然語言處理庫,用於處理中心語言(目前僅支持英文)中的詞性標…

    編程 2025-04-27
  • HR測試用例生成工具:hrtest的全面解析

    本文將從使用、功能、優點和代碼示例等多個方面詳細介紹HR測試用例生成工具hrtest。 一、使用 HR測試用例生成工具hrtest是一款可以自動生成測試用例的工具,省去了繁瑣的手動…

    編程 2025-04-27

發表回復

登錄後才能評論