一、安裝FastQC
FastQC是一個免費的、開源的軟件,可以在官網(https://www.bioinformatics.babraham.ac.uk/projects/fastqc/)下載安裝。安裝非常簡單,只需要下載對應版本的二進制文件並解壓,即可使用。FastQC是一個Java程序,因此需要確保安裝了Java運行時環境。
二、使用FastQC進行測序數據質量控制
FastQC可以用於對Illumina、SOLiD、Ion Torrent和PacBio測序數據進行質量控制。
1. 計算測序數據質量分布
FastQC通過計算測序數據的質量分布,幫助我們了解數據的質量和相關的問題,如低質量鹼基、過度的鹼基偏差、過度的N鹼基等,便於我們優化下游分析。
fastqc -o output_dir fastq_files
其中,-o
選項表示輸出結果的目錄,fastq_files
為待處理的FASTQ格式的測序數據文件。
FastQC支持同時處理多個文件,在命令行中對文件列表進行逗號分隔即可。例如:
fastqc -o output_dir file1.fastq.gz,file2.fastq.gz,file3.fastq.gz
FastQC會自動識別輸入文件的格式,無需手動指定。
2. FastQC結果解釋
FastQC處理後生成的報告分為三塊。第一部分是該樣本的總體質量摘要,包括序列總數、序列長度、質量分布等;第二部分是每個鹼基的質量分布柱狀圖;第三部分是檢測到的各種問題的詳細說明和解釋。
(1)總體質量摘要
總體質量摘要包括多個模塊,其中包括基本統計數據、序列長度分布、質量分布和序列GC含量等。這些模塊會描述文件中所有序列的總體質量,包括序列長度、質量值和其他統計性質。通過檢查這個模塊,可以確定數據的總體質量。
(2)每個鹼基的質量分布柱狀圖
相比於總體摘要,這個模塊主要關注質量分布問題。
這個模塊是FastQC報告中最常引用和最易解釋的部分。FastQC會為每個位置繪製一個圖表,圖表中包括不同的質量分數和其數量。對於每個質量擺動範圍內的分數,圖表中會有一個垂直的條形區域以及該質量分數對應的條形的面積。因此如果大多數鹼基都具有30或更高的質量,那麼在圖表的左側將會有一個非常高的條形,而在比30低的質量分數下,相應的條形可以很小(或不存在),這是質量分布良好的示例。
(3)問題和解釋
這個模塊會識別FastQC發現的數據問題,將它們列出,並提供對每個問題的詳細解釋。FastQC報告包含的圖表、表格和解釋,可以用來解釋檢測到的任何問題。
3. FastQC結果的處理
如果FastQC檢測到任何問題,需要評估這些問題對後續分析的影響。以低質量鹼基為例,如果序列中有大量低質量鹼基,將會影響序列長度和相似性搜索結果的準確性,可能會影響從序列中提取的功能信息。在這種情況下,可以使用低質量過濾器將低質量序列去除,以提高後續分析的準確性。
fastq_quality_filter -q 20 -p 80 -i in_file.fastq -o out_file.fastq
此命令將從in_file.fastq
中刪除80%的序列,並將序列寫入out_file.fastq
。只有序列中每個鹼基的質量分數大於或等於20的序列保留。
三、小結
FastQC提供了一個快速、簡便的方法來評估測序數據的質量,對於下游數據分析和工作流的設計都非常有用。除了單個數據集之外,它還支持多個數據集的處理,可以輕鬆地與其他Ngs分析工具集成。
原創文章,作者:BJTTK,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/334640.html