gffcompare是一個多功能的腳本工具,它能夠用於比較gff格式的不同轉錄本,快速識別出新的轉錄本,並對轉錄本進行聚類併產生匯總的結果等。本文將介紹gffcompare從結果、比對結果、教程、識別新的轉錄本等方面的應用。
一、gffcompare結果
gffcompare的結果包含多個文件,其中最主要的是’classification’文件,該文件包含了gff文件中的所有轉錄本的分類結果,如下所示:
#= Summary for dataset: /path/to/sample.gtf # Files: # 1: /path/to/sample.gtf (100000 transcripts, 28411 genes, 26327 ref mRNAs) # Reference transcripts: 26327 # Query transcripts: 73673 # sens./PPV exon intron # Matching intron chains: 400 85.7% | 77.5% # Matching transcripts: 36313 49.3% # Novel transcripts(incl.): 36360 100.0% # Missed reference(trans): 751 2.9% # Missed reference(exons/total): 14706/473123 3.1% # Missed reference(introns): 1449 1.8% # Missed reference intron chain: 248 65.0% # Gene-level TP rate(using exons): 59.5% # Transcript-level TP rate(using exons): 46.2% # Gene level N-50: 9 # Transcript level N-50: 4
上述結果中的”Matching transcripts”代表匹配的轉錄本數,”Novel transcripts(incl.)”代表新的轉錄本數,”Missed reference(trans)”代表缺失的參考序列,是gffcompare的關鍵輸出之一,通過該信息可以獲得轉錄本的差異信息,方便人們進行分析,同時該結果也可以用於下一次的比對。
二、gffcompare比對結果
gffcompare的比對結果是通過生成html格式文件來展示的,該文件包括以下內容:
1. 轉錄本匹配信息
匹配轉錄本信息提供了轉錄本之間的相似度、被參考序列所覆蓋的區域等信息。通過若干條基於圖形的表格,用戶可以輕鬆地確定匹配區域以及查詢序列是否被參考序列完全覆蓋。
2. 新的轉錄本信息
新的轉錄本信息可以方便用戶找出新增的轉錄本,並且通過散點圖的形式提供了具體的位置信息,用戶可以根據該信息將新的轉錄本與原有的轉錄本進行比較判斷。
3. 丟失的參考序列信息
丟失的參考序列信息可以用於查找未被檢測到的參考序列,並且該信息可以用於下一次的比對。同時,用戶可以通過參考序列的坐標信息來進一步確定已知參考序列缺失部分的位置。
三、gffcompare教程
1. gffcompare的安裝
gffcompare可以通過Conda、Homebrew和源碼安裝等方式獲得。在使用前應該確保安裝了必要的依賴項。
# 安裝gffcompare conda install gffcompare # 如果沒有Conda的話,可以通過Homebrew安裝 brew install brewsci/bio/gffcompare # 通過源碼安裝 git clone https://github.com/gpertea/gffcompare.git cd gffcompare make # 安裝必要的依賴項 sudo apt-get install gcc make zlib1g-dev libbz2-dev python perl
2. gffcompare的基本用法
比較gff文件時,gffcompare命令的使用方式如下:
gffcompare -r reference.gtf -G -o output prefix query.gtf
其中,-r參數指定參考文件,-G參數告訴gffcompare生成一個可視化的比對結果,-o參數可以指定輸出文件的前綴名。
3. gffcompare的進階用法
gffcompare還支持各種高級選項和參數,例如指定參考基因組數據的gff文件,聚合新的轉錄本而不是跳過相同轉錄本等。
gffcompare -r reference.gff -G -o output prefix -x ref.gff -s -V query.gff
四、gffcompare識別新的轉錄本
在gffcompare的輸出中,新的轉錄本信息部分提供了新的轉錄本的詳細信息,可以根據該信息對新的轉錄本進行分析和研究。此外,我們還可以通過gffcompare的選項來篩選新的轉錄本。例如,使用-C選項可以聚合新的轉錄本,而使用-v選項可以將不同的轉錄本標記為無關的,以便於後面的分析。
# 聚合新的轉錄本 gffcompare -r reference.gtf -G -o output prefix -C query.gtf # 標記不同的轉錄本 gffcompare -r reference.gtf -G -o output prefix -v query.gtf
gffcompare的轉錄本比對功能非常強大,提供了豐富的選項和功能。通過對gffcompare結果和比對結果的分析,人們可以更好地理解轉錄本之間的差異,從而對轉錄本進行更深入的研究。
原創文章,作者:WFCVC,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/317318.html