一、fastq-dump是什麼
fastq-dump是一款來自於SRA toolkit的軟體,可以幫助用戶從NCBI下載大型的NGS數據,並且具有很高的下載效率。SRA toolkit是一個專門用於訪問數據存儲庫的大型軟體包,其中包含一系列有用的數據獲取和處理工具。
在許多情況下,用戶從NCBI獲取NGS數據時,會先通過瀏覽器查找到谷歌搜索,然後手動下載每個文件,這樣往往會很麻煩。而fastq-dump則可以快速且自動地處理一批數據文件,因此成為了下載大量NGS數據的利器。
二、從NCBI下載數據
下載fastq-dump之後,用戶需要在終端或命令提示符中運行該軟體,以連接到NCBI並下載所需的NCBI存取數據(SRA)。以下是一個示例:
fastq-dump SRR390728
下載命令後面跟著的是所需的SRR ID,它是一個類似於 accession.number的唯一標識符。可以指定多個SRR ID,也可以將其存儲在文件中,並通過下面的方法來讀取:
fastq-dump --accession-list accessions.txt
其中accessions.txt是一個文本文件,其中包含要下載的SRR ID列表,每個ID佔一行。
三、從SRA文件下載數據
有時候,用戶可能只需要從SRA文件下載數據,而不是從NCBI。使用fastq-dump下載SRA文件數據的過程與下載NCBI存取數據的過程類似。
首先,需要下載SRA文件:
wget ftp://ftp-trace.ncbi.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR390/SRR390728/SRR390728.sra
其中,SRR390728.sra是所需的SRA文件。下載完成後,運行以下命令來將其轉換為fastq格式:
fastq-dump SRR390728.sra
四、fastq-dump其他選項
fastq-dump有許多有用的選項,下面簡單介紹幾個:
–gzip參數將結果壓縮成gzip格式,以節省磁碟空間。
fastq-dump --gzip SRR390728
–split-3參數將雙端序列分別生成兩個單端序列,每個序列都以_1或_2結尾。
fastq-dump --split-3 SRR390728
需要注意的是,如果下載的是單端序列,則這個選項沒有任何作用。
五、通過fastq-dump下載SRA RunInfo和SRA Experiment
除了下載SRA數據文件之外,fastq-dump還可以幫助用戶獲取SRA運行信息(即SRA RunInfo)和SRA實驗信息(即SRA Experiment)。
要獲取SRA RunInfo,請使用以下命令:
fastq-dump --info SRR390728
要獲取SRA實驗信息,請使用以下命令:
fastq-dump --info --exper SRR390728
這些信息可以幫助用戶更好地了解其數據並確定未來的數據分析流程。
六、總結
總之,fastq-dump是從NCBI下載大型NGS數據的最佳工具之一。它操作簡單,下載效率高,而且具有許多有用的選項和功能。
原創文章,作者:ABAK,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/145882.html