一、FastQC簡介
FastQC是一款快速、高效的質控工具,可幫助我們評估測序數據的質量並識別潛在問題。它是以Java編寫的,可以接收針對Illumina,Ion Torrent和PacBio平台的fastq格式數據文件作為輸入數據。
其主要評估幾個方面:
- 每個鹼基的質量值分布情況
- 序列數及序列長度的分布
- 含有低質量序列的數量和比例
- 序列中存在的複雜序列(如接頭、引物等)
- 鹼基組成
FastQC評估後將生成一個HTML文件,我們可以通過可視化頁面來查看各項統計值、圖表和直方圖,以便進行數據質量控制和處理。
二、安裝與使用
FastQC是一個開源工具,可以從其官網(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)下載並安裝。在Windows系統上,僅需使用雙擊安裝。在Linux系統中,您可以使用命令行安裝,在命令行輸入:
wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip
unzip fastqc_v0.11.9.zip
chmod 755 FastQC/fastqc
sudo ln -s /path/to/FastQC/fastqc /usr/local/bin/
安裝後,在Linux中可以使用以下命令運行FastQC:
fastqc input_file.fastq
其中,input_file.fastq是要進行質量控制的數據文件。對於Windows用戶,可以使用圖形用戶界面(GUI)。
三、FastQC報告解讀
1、序列質量分析
序列質量分析主要評估每個鹼基的質量得分,並以直方圖和誤差率圖表現出來(Phred質量得分越高代表越好)。FastQC報告中一些常見的輸出圖表包括:
- 鹼基質量分布曲線:該圖表顯示每個鹼基的平均質量值,並用不同顏色的方塊表示質量的不同水平,以便預測序列中的錯誤率。
- 鹼基質量箱形圖:該圖表顯示每個鹼基質量值分布的範圍,可以幫助檢測到低質量鹼基,通常標記為紅色。
2、序列長度分析
序列長度分析繪製序列長度的直方圖,該直方圖顯示序列在數據集中的長度分布。如果序列長度差距很大,則可能存在樣品污染、文庫製備問題或其他技術問題。
3、錯誤分析
錯誤分析檢測存在可疑鹼基和錯誤類型,以及檢測到的序列和鹼基的分段,突變及其長度。FastQC包括一個序列錯誤分類表,其中列出了四種可能的錯誤類型:替換錯誤、插入錯誤、刪除錯誤和N錯誤。
四、FastQC使用示例
1、下載數據集並進行解壓
wget https://ftp.sra.ebi.ac.uk/vol1/fastq/SRR097/SRR097977/SRR097977_1.fastq.gz
gunzip SRR097977_1.fastq.gz
2、安裝FastQC
Linux下安裝過程請見第二部分的說明。
3、運行並生成HTML質量報告
fastqc SRR097977_1.fastq
FastQC將生成一個HTML報告,可以用任何瀏覽器打開。
總結
FastQC是評估測序數據質量的最好工具之一,它提供了方便的可視化報告。我們可以根據報告來決定是否需要進行後續的數據質量控制和處理。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/190910.html