一、blastn基本介紹
BLAST(Basic Local Alignment Search Tool)是一種生物信息學常用的序列比對工具。可用於在資料庫中搜索與給定序列相似的序列。blastn是其中一種,是基於nucleotide sequences進行比對。
blastn演算法的核心是比對scoring system,即計算query和database sequence的相似度。blastn演算法計算相似度的方式是通過計算query和database sequence裡面的每個nucleotide pair的相似度,得到一個總的相似度score。比對結果可以根據score排序。
二、blastn在基因組學研究中的應用
1、基因注釋
blastn可以用於基因組注釋,通過將未知基因序列與已知基因組對比,從而確定未知基因的位置和功能信息。
# 將未知基因序列,比對到已知基因組上,得到比對結果
blastn -query unknown_gene.fasta -db reference_genome -out result.txt
2、SNP變異檢測
blastn可以用於檢測SNP(single nucleotide polymorphisms)變異,輸入變異位點序列和基因組序列,使用blastn進行比對。比對結果中可以找到SNP變異的位置。
# 將變異位點序列和基因組序列,比對得到相似度高的位置
blastn -query snp.fasta -subject genome.fasta -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore" > result.txt
三、blastn在基因表達譜分析中的應用
1、轉錄本注釋
blastn可以將已知基因的cDNA序列與基因組,進行比對從而注釋出轉錄本,如找到剪切異構體(splice variants)或者完成發育過程中的轉錄本。
# 將已知cDNA序列,比對到基因組上,得到剪切異構體序列
blastn -query cDNA_sequence.fasta -db reference_genome -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore" > splice_variants.txt
2、表達量定量
blastn可以對測序數據進行比對,來進行轉錄本表達量定量。通過將reads與轉錄本之間進行比對,量化不同轉錄本在不同樣本中的表達量,從而研究基因的表達譜。
# 將RNA-Seq數據比對到轉錄本上,得到表達量
blastn -query RNASeq_reads.fasta -db transcriptome.fasta -outfmt "6 sseqid qstart qend" > expression_level.txt
四、blastn在蛋白質結構預測中的應用
blastn還可以在蛋白質結構預測中的應用,通過比對蛋白質序列和蛋白質資料庫,得到相似蛋白質序列。在相似蛋白質上預測蛋白質的結構等信息。
# 將蛋白質序列比對到蛋白質資料庫中,得到相似蛋白質
blastn -query protein.fasta -db protein_database -outfmt "6 qseqid sseqid pident length mismatch gapopen qstart qend sstart send evalue bitscore" > similar_proteins.txt
五、blastn的使用注意事項
1、序列選擇
blastn需要比對兩個序列,query和database sequence。為了準確比對得到結果,需要根據不同研究問題選擇相應的序列。比如在基因注釋中,選擇未知基因序列和已知基因組作為query和database sequence;在表達量定量中,選擇RNA-Seq reads和轉錄本作為query和database sequence。
2、參數設置
blastn的參數調整對結果影響很大,需要根據研究問題和實驗數據進行合適的參數設置。比如在SNP變異檢測中,需要選擇合適的e-value和score threshold。
3、結果解釋
blastn的結果需要仔細解釋,包括比對位置、相似度得分、基因注釋結果、轉錄本定量表達結果等。需要根據具體的研究問題和實驗要求進行結果的解釋。
原創文章,作者:XRJQK,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/334599.html