本文目錄一覽:
- 1、生物數據格式 – vcf/bcf
- 2、如何建立vcf文件
- 3、python如何讀取xml中的list表,並將其轉換成如下VCF格式輸出?請給出具體程序,編譯成功給分
- 4、怎麼讀取千人基因組中的vcf數據格式文件
生物數據格式 – vcf/bcf
VCF是Variant Call Format的簡稱,該格式文件是專門用於存儲基因序列突變信息的一種文本文件,包括單鹼基突變SNV、單核苷酸多態性SNP、InDel、拷貝數變異CNV和結構變異SV等,文件可以採取editplus或pilotedit(建議)打開查看,其二進位存儲格式是BCF。vcf文件後續可以用於多種分析,包括但不限於:進化樹分析、群體結構分析、PCA分析、GWAS關聯分析等。vcf文件格式如下:
VCF文件開頭是整體的注釋信息,以##作為起始,其後接FILTER、INFO、FORMAT等,其中##FILTER開頭的行是vcf主體record中第七列縮寫詞的說明、##INFO開頭的行注釋vcf主體record中第8列的縮寫字母、##FORMAT開頭的行注釋第九列的縮寫字母。
在header之後,vcf主體的每一行是一條record,固定列有9列,以及在之後的第十列,它們分別是:
第一列:#CHROM,染色體號
第二列:POS,在染色體上的位置
第三列:ID,突變名稱,一般只有人類才有dbSNP編號,以rs開頭
第四列:REF,參考基因組鹼基類型,必須大寫
第五列:ALT,變異鹼基類型,大寫,多個以逗號分隔,『.’表示缺失
第六列:QUAL,變異檢測質量值,越高越可靠
第七列:FILTER,標記過濾結果的列:通過質控過濾標準的標記為『PASS』,後續可用其他工具進行挑選過濾
第八列:INFO,附加信息列,附加信息的注釋在header的##INFO中
第九列:FORMAT,後面信息的說明列
第十列開始為樣品信息:GT=genotype、AD=鹼基支持數量、DP=測序深度總和、PL=歸一化後基因型的可能性、GQ=PL判讀的基因型的質量值,其中當第二小的值小於99時,有必要懷疑基因型的可靠性。
vcf文件基本由bam文件生成,當得到排序並建立索引的bam文件後,可以使用多種工具例如bcftools、gatk、freebayes、lumpy、delly、varscan2等處理得到。
處理vcf格式文件的軟體有許多種,包括:bcftools、vcftools、gatk、python_pyvcf、plink等。
———以上屬個人理解與記錄
如何建立vcf文件
在電腦上做的話網上有pc端vcf編輯器。在nokia手機上的話就進入名片夾選擇要複製的名片-選項-複製-至存儲卡,然後 文件管理-存儲卡-other-contacts里就是你複製成功的vcf名片夾了。注意other文件夾里contacts只會保存你最後一次你複製的名片,若想多次保存,把以保存的contacts文件夾移出other文件夾即可
python如何讀取xml中的list表,並將其轉換成如下VCF格式輸出?請給出具體程序,編譯成功給分
1.可以使用ElementTree模塊
from xml.etree.ElementTree import ElementTree
from xml.etree.ElementTree import Element
from xml.etree.ElementTree import SubElement
from xml.etree.ElementTree import dump
from xml.etree.ElementTree import Comment
from xml.etree.ElementTree import tostring
2.可以使用BeautifulSoup模塊
怎麼讀取千人基因組中的vcf數據格式文件
(看到這個問題是近3年前的,提問者應該早就知道了,但好像沒有正確的回答,就在這裡回答一下希望對別的搜索的問題的人有幫助)
既然知道vcf文件,就默認你是在linux系統下操作的。
1)只是查看的話:如果是.vcf.gz壓縮格式,就使用這個命令:less yourfile.vcf.gz,打開亂碼試試這個:bcftools view yourfile.vcf.gz |less ;如果不是壓縮格式: less yourfile.vcf就可以查看。
2)如果是要操作vcf的話:就用python,導入pysam模塊,沒有這個模塊要下載。pysam模塊下載:pip install pysam,如果下不了就自己網上搜一下。順便提供一個pysam的說明文檔,有操作示例:網頁鏈接
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/249089.html