gffcompare是一个多功能的脚本工具,它能够用于比较gff格式的不同转录本,快速识别出新的转录本,并对转录本进行聚类并产生汇总的结果等。本文将介绍gffcompare从结果、比对结果、教程、识别新的转录本等方面的应用。
一、gffcompare结果
gffcompare的结果包含多个文件,其中最主要的是’classification’文件,该文件包含了gff文件中的所有转录本的分类结果,如下所示:
#= Summary for dataset: /path/to/sample.gtf # Files: # 1: /path/to/sample.gtf (100000 transcripts, 28411 genes, 26327 ref mRNAs) # Reference transcripts: 26327 # Query transcripts: 73673 # sens./PPV exon intron # Matching intron chains: 400 85.7% | 77.5% # Matching transcripts: 36313 49.3% # Novel transcripts(incl.): 36360 100.0% # Missed reference(trans): 751 2.9% # Missed reference(exons/total): 14706/473123 3.1% # Missed reference(introns): 1449 1.8% # Missed reference intron chain: 248 65.0% # Gene-level TP rate(using exons): 59.5% # Transcript-level TP rate(using exons): 46.2% # Gene level N-50: 9 # Transcript level N-50: 4
上述结果中的”Matching transcripts”代表匹配的转录本数,”Novel transcripts(incl.)”代表新的转录本数,”Missed reference(trans)”代表缺失的参考序列,是gffcompare的关键输出之一,通过该信息可以获得转录本的差异信息,方便人们进行分析,同时该结果也可以用于下一次的比对。
二、gffcompare比对结果
gffcompare的比对结果是通过生成html格式文件来展示的,该文件包括以下内容:
1. 转录本匹配信息
匹配转录本信息提供了转录本之间的相似度、被参考序列所覆盖的区域等信息。通过若干条基于图形的表格,用户可以轻松地确定匹配区域以及查询序列是否被参考序列完全覆盖。
2. 新的转录本信息
新的转录本信息可以方便用户找出新增的转录本,并且通过散点图的形式提供了具体的位置信息,用户可以根据该信息将新的转录本与原有的转录本进行比较判断。
3. 丢失的参考序列信息
丢失的参考序列信息可以用于查找未被检测到的参考序列,并且该信息可以用于下一次的比对。同时,用户可以通过参考序列的坐标信息来进一步确定已知参考序列缺失部分的位置。
三、gffcompare教程
1. gffcompare的安装
gffcompare可以通过Conda、Homebrew和源码安装等方式获得。在使用前应该确保安装了必要的依赖项。
# 安装gffcompare conda install gffcompare # 如果没有Conda的话,可以通过Homebrew安装 brew install brewsci/bio/gffcompare # 通过源码安装 git clone https://github.com/gpertea/gffcompare.git cd gffcompare make # 安装必要的依赖项 sudo apt-get install gcc make zlib1g-dev libbz2-dev python perl
2. gffcompare的基本用法
比较gff文件时,gffcompare命令的使用方式如下:
gffcompare -r reference.gtf -G -o output prefix query.gtf
其中,-r参数指定参考文件,-G参数告诉gffcompare生成一个可视化的比对结果,-o参数可以指定输出文件的前缀名。
3. gffcompare的进阶用法
gffcompare还支持各种高级选项和参数,例如指定参考基因组数据的gff文件,聚合新的转录本而不是跳过相同转录本等。
gffcompare -r reference.gff -G -o output prefix -x ref.gff -s -V query.gff
四、gffcompare识别新的转录本
在gffcompare的输出中,新的转录本信息部分提供了新的转录本的详细信息,可以根据该信息对新的转录本进行分析和研究。此外,我们还可以通过gffcompare的选项来筛选新的转录本。例如,使用-C选项可以聚合新的转录本,而使用-v选项可以将不同的转录本标记为无关的,以便于后面的分析。
# 聚合新的转录本 gffcompare -r reference.gtf -G -o output prefix -C query.gtf # 标记不同的转录本 gffcompare -r reference.gtf -G -o output prefix -v query.gtf
gffcompare的转录本比对功能非常强大,提供了丰富的选项和功能。通过对gffcompare结果和比对结果的分析,人们可以更好地理解转录本之间的差异,从而对转录本进行更深入的研究。
原创文章,作者:WFCVC,如若转载,请注明出处:https://www.506064.com/n/317318.html