Tabix：一個快速索引和檢索大型TAB分隔的文本數據的工具

一、塔比星

Tabix是由Heng Li於2011年開發的一個快速索引和檢索大型TAB分隔的文本數據的工具，它將大文本文件中的數據存儲成一個tabix (tbi) 索引文件。它可以在這個文件上進行快速的查詢和檢索，並返回特定的數據。

#下載安裝
tar -jxvf tabix-0.2.6.tar.bz2
cd tabix-0.2.6/
make

# 創建索引
tabix -p vcf test.vcf.gz

# 查詢數據
tabix test.vcf.gz 1:100000-200000

Tabix的主要用途之一是便於在大文本文件中進行高效的數據檢索。建立tabix索引後，可以使用tabix查詢命令快速檢索文件，從而非常方便的從文件中提取感興趣的信息。

二、他比心開始疼我

Tabix使用samtools中的程序庫,支持gbk，gff，bed格式的索引文件。同時，它還支持多個數據源的匯聚，讓我們可以在同一個平台上做到索引N個vcf文件。它還支持對多個位置同時進行搜索。

# 創建多個索引文件
tabix -p bed file1.bed.gz
tabix -p bed file2.bed.gz
tabix -p gff file1.gff.gz
tabix -p gff file2.gff.gz

# 合併多個索引
for type in bed gff
do
  tabix -s 1 -b 2 -e 3 -c "#" -f -p $type merge.${type}.gz file1.${type}.gz file2.${type}.gz
done

# 搜索多個索引
tabix merge.bed.gz -R region.bed

同時，tabix還可以通過泊松子採樣來加速某些查詢：大範圍的查詢可以通過隨機採樣小範圍來代替，可以減少搜索時間，提高效率。

三、他比星河更浪漫

Tabix的優點還在於其使用方便。它提供了一些非常便利的選項，比如如果數據中欄位是字元串或數字，可以使用sort選項按升序或降序排列。此外，它還提供了一些有用的選項來處理多文檔和重複數據記錄，使數據處理更加可靠。

# 按數字大小升序排列
tabix -s 1 -b 2 -e 3 -c "#" -f -S 1 file.gz

# 去重
tabix -s 1 -b 2 -e 3 -c "#" -f -u file.gz > nodup.file.gz

四、由於新冠疫情英文

Tabix還支持直接從網路上下載和解析vcf/gtf/bed等常見格式的數據。這對於需要處理大數據集的人們來說非常方便。

# 下載並解析ftp上的vcf數據
tabix -p vcf ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/phase3/data/HG00103/alignment/HG00103.mapped.illumina.mosaik.GBR.low_coverage.20120522.snp_and_indel.vcf.gz

五、他比星光更璀璨

在實際應用中，Tabix常被用於生物信息學領域，特別是在基因組瀏覽器和變異調查中。

例如，我們可以使用Tabix來處理1000人基因組計劃（1000 Genomes Project）的測序數據。該數據集包含從全球各個地方收集的超過2500個人的全基因組序列。當需要導航大量基因組數據時，search gene databases（基因庫）中的信息，或者進行結構比較和序列比較時，一定需要用到tabix。

六、他比星星撩人

Tabix是一個非常強大的工具，它為我們解決了在大文件中進行數據檢索的問題，是許多大數據集查詢的重要解決方案。它還可以進行複雜的數據合併、排序和篩選，並提供了多種常用格式的數據下載和解析功能。因此，無論是在基因組學，生物信息學還是一般的大數據處理中，Tabix都是一個非常實用的工具。

# 安裝
wget https://raw.githubusercontent.com/samtools/tabix/master/tabix.c 
wget https://raw.githubusercontent.com/samtools/tabix/master/bgzip.c 
wget https://raw.githubusercontent.com/samtools/tabix/master/knetfile.c 
wget https://raw.githubusercontent.com/samtools/tabix/master/tabix.h 
make

# 準備數據
wget https://raw.githubusercontent.com/bedops/bedops/master/sample-data/fisher/fisher1.bed 
wget https://raw.githubusercontent.com/bedops/bedops/master/sample-data/fisher/fisher2.bed 

# 創建索引
bgzip -c fisher1.bed > fisher1.bed.gz 
tabix -p bed fisher1.bed.gz 

bgzip -c fisher2.bed > fisher2.bed.gz 
tabix -p bed fisher2.bed.gz 

# 合併索引
tabix -s 1 -b 2 -e 3 -c "#" -f -p bed merge.bed.gz fisher1.bed.gz fisher2.bed.gz 

# 查詢
tabix merge.bed.gz 1:1000000-2000000 
tabix merge.bed.gz 2:2000000-4000000

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/307190.html