一、SOAPdenovo簡介
SOAPdenovo 是一款用於快速、高效拼接 NGS 產生的高通量測序數據的軟件。它採用了 De Bruijn 圖算法以及其他改良過的組裝算法,能夠在較短時間內拼接得到高質量的連續序列,對於未知樣品基因組信息的序列分析也具有良好的應用能力。SOAPdenovo 支持單端、雙端測序、混合序列以及小RNA序列拼接,具有高度的靈活性與易用性,是基因組組裝領域中常用的工具之一。
二、soapdenovo2的安裝
SOAPdenovo2 是 SOAPdenovo 的升級版,相對於原版增加了 scaffolding 功能,配合其他軟件可以更好地提高拼接成果的質量。安裝方法如下:
# 下載 SOAPdenovo2 git clone https://github.com/aquaskyline/SOAPdenovo2.git # 安裝 cd SOAPdenovo2 make # 驗證程序是否安裝成功 /bin/echo -e "ATCG\n>test\nATCG\n" > test.fa ./SOAPdenovo-127mer all -s config_file -K 25 -R -o out grep TEST_K25 out.scafSeq rm -f test.fa out.*
三、SOAPdenovo2拼接速度
SOAPdenovo2 的拼接速度非常快。
在使用雙端測序數據拼接人類基因組時,其中一組測序數據大約為600GB,SOAPdenovo2 拼接僅用時1個半小時,內存佔用僅為23GB。相比其他拼接工具,SOAPdenovo2 在拼接速度和內存使用方面具有很大優勢。
四、SOAPdenovo2 組裝結果
使用 SOAPdenovo2 進行組裝會得到 contigs 和 scaftigs 兩類序列。
contigs 的組裝結果是通過連接各個單獨的 reads 得到的碎片序列,其長度在 50-2000bp 之間。而 scaftigs 則是通過連接多個 contigs 得到的較大的序列,長度可能達到數百 kb,能夠更好地表示原基因組的連續性和完整性。
五、SOAPdenovoTrans
SOAPdenovoTrans 是針對轉錄組測序數據的專門版本,主要應用於轉錄組拼接和剪切變異的分析。其拼接精度高,比較適合於低通量的RNA-seq數據。
# 下載SOAPdenovo-Trans git clone https://github.com/aquaskyline/SOAPdenovo-Trans.git # 安裝 cd SOAPdenovo-Trans make # 驗證 ./SOAPdenovo-Trans all -s config_file -K 25 -o out # 輸出結果 less out.scafSeq
六、SOAPdenovo組裝contigs
SOAPdenovo 的 contig 組裝可以使用以下命令進行:
./SOAPdenovo all -s config_file -K -o out_prefix
其中,kmer_value 需要根據實際情況設置。在連續序列較短的情況下,kmer_value 應較小,反之則應較大。
除此之外,用戶還可以根據需要編寫 config 文件進行更加詳細的設置。該文件需要根據樣品的具體情況進行設置。
七、SOAPdenovo為什麼要組裝
SOAPdenovo 對於未知樣品的基因組分析非常有用,因為原始的高通量測序數據往往是由於測序技術和 Sequencing Platform 不同等各種因素導致產生的,這意味着不同的測序會得到不同的短讀,難以直接得到完整的連續序列。
所以,拼接這些短讀並進行組裝,能夠得到更完整、更具連續性的 DNA 序列,為單個基因組和物種的進化提供更深入的認識。
八、SOAPdenovo組裝結果評估
SOAPdenovo 的組裝結果可以使用一些軟件進行評估,如QUAST和BUSCO。QUAST 可以評估組裝的連續程度、完整性、誤配率和異質性等指標。BUSCO 則是用於評估組裝結果的基因組完整性和完備性,可以用於評估組裝結果是否與預期的基因組相似。
# 使用QUAST進行評估 quast.py -r reference.fasta -o results_dir contigs.fasta # 使用BUSCO進行評估 busco -i assembly.fasta -l database -o output_name
九、SOAPdenovo-Trans scafSeq選取
在轉錄組分析中,SOAPdenovo-Trans scafSeq 拼接之後需要進一步選取有效的序列。可以根據基因組注釋的信息篩選出具有轉錄本功能的序列。這可以通過使用RSEM和Trinity軟件工具實現。
# 使用Trinity進行拼接 Trinity --seqType fq --max_memory 8G --left reads_1.fq --right reads_2.fq --CPU 4 --min_contig_length 150 --output output_dir # 使用RSEM進行表達量計算 rsem-calculate-expression --paired-end --no-bam-output reads_1.fq reads_2.fq reference.fasta output_name
以上是SOAPdenovo的使用指南,希望能給需要的用戶提供一些幫助。
原創文章,作者:FEQZD,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/371012.html