一、SOAPdenovo简介
SOAPdenovo 是一款用于快速、高效拼接 NGS 产生的高通量测序数据的软件。它采用了 De Bruijn 图算法以及其他改良过的组装算法,能够在较短时间内拼接得到高质量的连续序列,对于未知样品基因组信息的序列分析也具有良好的应用能力。SOAPdenovo 支持单端、双端测序、混合序列以及小RNA序列拼接,具有高度的灵活性与易用性,是基因组组装领域中常用的工具之一。
二、soapdenovo2的安装
SOAPdenovo2 是 SOAPdenovo 的升级版,相对于原版增加了 scaffolding 功能,配合其他软件可以更好地提高拼接成果的质量。安装方法如下:
# 下载 SOAPdenovo2 git clone https://github.com/aquaskyline/SOAPdenovo2.git # 安装 cd SOAPdenovo2 make # 验证程序是否安装成功 /bin/echo -e "ATCG\n>test\nATCG\n" > test.fa ./SOAPdenovo-127mer all -s config_file -K 25 -R -o out grep TEST_K25 out.scafSeq rm -f test.fa out.*
三、SOAPdenovo2拼接速度
SOAPdenovo2 的拼接速度非常快。
在使用双端测序数据拼接人类基因组时,其中一组测序数据大约为600GB,SOAPdenovo2 拼接仅用时1个半小时,内存占用仅为23GB。相比其他拼接工具,SOAPdenovo2 在拼接速度和内存使用方面具有很大优势。
四、SOAPdenovo2 组装结果
使用 SOAPdenovo2 进行组装会得到 contigs 和 scaftigs 两类序列。
contigs 的组装结果是通过连接各个单独的 reads 得到的碎片序列,其长度在 50-2000bp 之间。而 scaftigs 则是通过连接多个 contigs 得到的较大的序列,长度可能达到数百 kb,能够更好地表示原基因组的连续性和完整性。
五、SOAPdenovoTrans
SOAPdenovoTrans 是针对转录组测序数据的专门版本,主要应用于转录组拼接和剪切变异的分析。其拼接精度高,比较适合于低通量的RNA-seq数据。
# 下载SOAPdenovo-Trans git clone https://github.com/aquaskyline/SOAPdenovo-Trans.git # 安装 cd SOAPdenovo-Trans make # 验证 ./SOAPdenovo-Trans all -s config_file -K 25 -o out # 输出结果 less out.scafSeq
六、SOAPdenovo组装contigs
SOAPdenovo 的 contig 组装可以使用以下命令进行:
./SOAPdenovo all -s config_file -K -o out_prefix
其中,kmer_value 需要根据实际情况设置。在连续序列较短的情况下,kmer_value 应较小,反之则应较大。
除此之外,用户还可以根据需要编写 config 文件进行更加详细的设置。该文件需要根据样品的具体情况进行设置。
七、SOAPdenovo为什么要组装
SOAPdenovo 对于未知样品的基因组分析非常有用,因为原始的高通量测序数据往往是由于测序技术和 Sequencing Platform 不同等各种因素导致产生的,这意味着不同的测序会得到不同的短读,难以直接得到完整的连续序列。
所以,拼接这些短读并进行组装,能够得到更完整、更具连续性的 DNA 序列,为单个基因组和物种的进化提供更深入的认识。
八、SOAPdenovo组装结果评估
SOAPdenovo 的组装结果可以使用一些软件进行评估,如QUAST和BUSCO。QUAST 可以评估组装的连续程度、完整性、误配率和异质性等指标。BUSCO 则是用于评估组装结果的基因组完整性和完备性,可以用于评估组装结果是否与预期的基因组相似。
# 使用QUAST进行评估 quast.py -r reference.fasta -o results_dir contigs.fasta # 使用BUSCO进行评估 busco -i assembly.fasta -l database -o output_name
九、SOAPdenovo-Trans scafSeq选取
在转录组分析中,SOAPdenovo-Trans scafSeq 拼接之后需要进一步选取有效的序列。可以根据基因组注释的信息筛选出具有转录本功能的序列。这可以通过使用RSEM和Trinity软件工具实现。
# 使用Trinity进行拼接 Trinity --seqType fq --max_memory 8G --left reads_1.fq --right reads_2.fq --CPU 4 --min_contig_length 150 --output output_dir # 使用RSEM进行表达量计算 rsem-calculate-expression --paired-end --no-bam-output reads_1.fq reads_2.fq reference.fasta output_name
以上是SOAPdenovo的使用指南,希望能给需要的用户提供一些帮助。
原创文章,作者:FEQZD,如若转载,请注明出处:https://www.506064.com/n/371012.html