本文目錄一覽:
VCF文件參數解讀
VCF文件的開頭是整體注釋信息,通常以##作為起始,其後一般接以FILTER,INFO,FORMAT等字樣。
例如:以##FILTER開頭的行,表示注釋VCF文件當中第7列中縮寫詞的說明;##INFO開頭的行注釋VCF第8列中的縮寫字母說明,比如AF代表Allele Frequency也就是等位基因頻率;##FORMAT開頭的行注釋VCF第9列中的縮寫字母說明;另外還有其他的一些信息,文件版本”fileformat=VCFv4.0″等等。還能看到一些歷史命令,通過這些命令可以知道這個vcf文件是如何得到的。
各列之間用tab空白隔開;前面9列為固定列,第10列開始為樣品信息列,可以無限多個;圖示樣品信息列有130個
CHROM POS ID REF ALT QUAL FILTER INFO FORMAT
後面的列都為樣品基因型信息列
1.CHROM 記錄染色體編號
2.POS 記錄變異位點在參考基因組中的位置。如果是SNP的話,POS即SNP的位置;如果是INDEL的話,位置是INDEL的第一個鹼基位置。
3.ID SNP/INDEL的ID, 如在dbSNP中有該SNP的id,則會在此行給出;若沒有,則用』.’表示其為一個novel variant 新變異,dbSNP編號通常以rs開頭,一般只有人類基因組才有dbSNP編號
INDEL 指的是在基因組的某個位置上所發生的small deletion,small inverion小片段序列的插入或者刪除,其長度通常在50bp以下
4.REF 參考基因組該位置鹼基類型,必須是A,C,G,T,N N表示不確定鹼基,SNP應該一個位點就是一個鹼基
5.ALT 與參考序列比較,發生突變的變異鹼基類型,必須是A,C,G,T,N,. 多個用逗號分割。”.” 表示這個地方沒有reads覆蓋為缺失。
6.QUAL 變異位點檢測質量值,越高越可靠。表示在該位點存在variant的可能性,該值越高,則variant的可能性越大
等於-10*log10(該變異位點檢測錯誤的概率)。 用 . 表示,是質量值沒有輸出,不代表質量值為0
log0.1表示10的多少次方等於0.1,即為-1;10的-1次方為十分之一,10的-2次方為一百分之一
7.FILTER 如果該位點通過過濾標準那麼我們可以在該列標記為”PASS”,說明該列質量值高。
8. INFO為variant的詳細信息 字段的意思可以在header里搜索去看
上面vcf 中INFO全為「.」了,是因為用 vcftools 某步過濾SNP輸出文件時用了 –recode ,這樣就不輸出info信息,以 . 代替了,想輸出info,可以–recode-INFO xx(如MQ) 或者 –recode-INFO-all (所有info全部輸出)
#DP-read depth:樣本在這個位置的reads覆蓋度。是一些reads被過濾掉後的覆蓋度。DP4:高質量測序鹼基,位於REF或者ALT前後
#QD:通過深度來評估一個變異的可信度。Variant call confidence normalized by depth of sample reads supporting a variant
#MQ:表示覆蓋序列質量的均方值RMS Mapping Quality
#FQ:phred值關於所有樣本相似的可能性
#AC,AF 和 AN:AC(Allele Count) 表示該Allele的數目;AF(Allele Frequency) 表示Allele的頻率; AN(Allele Number) 表示Allele的總數目。
對於1個diploid sample(雙倍體)而言:則基因型 0/1 表示sample為雜合子,Allele數為1 (雙倍體的sample在該位點只有1個等位基因發生了突變),Allele的頻率為0.5 (雙倍體的sample在該位點只有50%的等位基因發生了突變),總的Allele為2; 基因型 1/1 則表示sample為純合的,Allele數為2,Allele的頻率為1,總的Allele為2。
#MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed
#MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed
#BaseQRankSum 比較支持變異的鹼基和支持參考基因組的鹼基的質量,負值表示支持變異的鹼基質量值不及支持參考基因組的,
正值則相反,支持變異的質量值好於參考基因組的。0表示兩者無明顯差異。
#FS 使用F檢驗來檢驗測序是否存在鏈偏好性。鏈偏好性可能會導致變異等位基因檢測出現錯誤。輸出值Phred-scaled p-value,值越大越可能出現鏈偏好性。
#InbreedingCoeff 使用似然法檢驗樣本間的近交係數(又或者稱為近親關係)。值越高越可能是近親繁殖。
#MQRankSum 比較支持變異的序列和支持參考基因組的序列的質量,負值表示支持變異的鹼基質量值不及支持參考基因組的,只針對雜合。
正值則相反,支持變異的質量值好於參考基因組的。0表示兩者無明顯差異。實際應用中一般過濾掉較小的負值。
#BaseCounts 所有樣本在變異位點ATCG的數量
#ClippingRankSum 同前面兩個類似,負值表示支持變異的read有更的的hard-clip鹼基,正值表示支持參考基因組的的read有更多的hard-clip。0最好,無論是正值還是負值都表示可能可能存在人為偏差。
#ReadPosRankSum 檢測變異位點是否有位置偏好性(是否存在於序列末端,此時往往容易出錯)。最佳值為0,表示變異與其在序列上的位置無關。負值表示變異位點更容易在末端出現,正值表示參考基因組中的等位基因更容易在末端出現。
#ExcessHet 檢測這些樣本的相關性,與InbreedingCoeff相似,值越大越可能是錯誤。
#LikelihoodRankSum 評價支持變異和ref的序列與best hyplotype的匹配性,0為最佳值。負值表示支持變異的read匹配度不及支持ref的匹配度,正值則相反。值越大表示越可能是出現了錯誤。
#HaplotypeScore 分數越高越可能出現錯誤。Higher scores are indicative of regions with bad alignments, typically leading to artifactual SNP and indel calls.
#SOR:也是一個用來評估是否存在鏈偏向性的參數,相當於FS的升級版。The StrandOddsRatio annotation is one of several methods that aims to evaluate whether there is strand bias in the data. It is an updated form of the Fisher Strand Test that is better at taking into account large amounts of data in high coverage situations. It is used to determine if there is strand bias between forward and reverse strands for the reference or alternate allele. The reported value is ln-scaled.
#IS:插入缺失或部分插入缺失的reads允許的最大數量
#G3:ML 評估基因型出現的頻率
#HWE:chi^2基於HWE的測試p值和G3
#CLR:在受到或者不受限制的情況下基因型出現可能性log值
#UGT:最可能不受限制的三種基因型結構
#CGT:最可能受限制三種基因型的結構
#PV4:四種P值的誤差,分別是(strand、baseQ、mapQ、tail distance bias)
#INDEL:表示該位置的變異是插入缺失
#PC2:非參考等位基因的phred(變異的可能性)值在兩個分組中大小不同
#PCHI2:後加權chi^2,根據p值來測試兩組樣本之間的聯繫
#QCHI2:Phred scaled PCHI2
#PR:置換產生的一個較小的PCHI2
#QBD:Quality by Depth,測序深度對質量的影響
#RPB:序列的誤差位置(Read Position Bias)
#MDV:樣本中高質量非參考序列的最大數目
#VDB:Variant Distance Bias,RNA序列中過濾人工拼接序列的變異誤差範圍
9.FORMAT 為後面10列信息的說明列,通常以” :”隔開各個縮寫詞。
10 列(包含)以後 為樣品基因型列,各信息以”:”分隔與FORMAT列一一對應;
(不確定 1/0與0/1 , 1/2與2/1 , 2/3與3/2 是否為一個意思,猜測可能是一個意思,沒有去深究)
在過濾後只剩SNP的vcf文件中,GT只會存在 0/0 0/1 1/1 0(參考基因組等位基因類型)和1(樣品的一種變異等位基因類型)
像下圖,還存在除SNP外其他類型的變異,所以GT存在1/2,2/2等
AD 和DP: AD(Allele Depth)為sample中在此位置支持每種鹼基型的reads深度,用逗號分割,前者對應ref基因型,後者對應variant基因型; DP(Depth)為sample中該位點的覆蓋度,為該變異位點的深度和,也就是AD兩個數字的和。
GQ : 基因型質量值 Phred值 = -10 * log (p) p為基因型錯誤的概率 越高越可靠
PL : 指定的三種基因型的似然值。這三種指定的基因型為(0/0,0/1,1/1),這三種基因型的概率總和為1。數值越小代表基因型越可靠,最小的數字對應的基因型判讀為該樣品的最可能的基因型。比如最後一列285,0,105,分別對應基因型0/0,0/1,1/1,說明0/1為可能的基因型。
PGT PID 也看了,沒咋懂,不記錄了
參考:
vcf文件怎麼打開 怎樣打開vcf文件
1、運行VCF通訊錄編i輯器軟件,單擊「文件」菜單中的「打開」命令。
2、彈出「打開通訊錄文件」的對話框,在左側文件夾列表中瀏覽到要打開通訊錄文件的位置,選中後單擊「確定」按鈕。
3、接着再單擊「文件」菜單中的「以明碼另存通訊錄為」。
4、彈出「另存通訊錄文件為」對話框,選擇要保存通訊錄文件的位置,單擊「確定」按鈕。註:3、4步是解決亂碼問題。
5、單擊「開始」,單擊「所有程序」,單擊「附件」,單擊「通訊簿」。
6、單擊菜單欄的「文件」,彈出的菜單指向「導入」,在下一級菜單單擊「名片」。
7、找到通訊錄文件,選中並單擊「打開」按鈕。
8、單擊「開始」,單擊「所有程序」,單擊「MicrosoftOffice」,單擊「MicrosoftOfficeOutlook2003」。
9、單擊菜單欄的「文件」,打開的下拉菜單單擊「導入和導出」命令。
10、打開「導入和導出嚮導」對話框,在請選擇要執行的操作列表框中選中「導入VCARD文件(.vcf)」,單擊「下一步」按鈕。
11、在「VCard文件」對話框瀏覽到存儲通訊錄文件的位置,選中後單擊右下角的「打開」按鈕或直接雙擊打開。
12、單擊「轉到」菜單中的「聯繫人」命令。
13、這樣也達到打開通訊錄文件的目的,當然也可以雙擊聯繫人框中的任意一個信息框來打開更為詳細聯繫人界面,註:這一步可以直接雙擊打開通訊錄文件(vcf)。
VCF 的v c f 各個是什麼意思?
VCF
虛擬卡
文件(Netscape),這只是文件的一種
後綴名
,沒有什麼實際含義,正如fla文件,是
Adobe公司
開發FLASH編輯工具定義的一種後綴名,最初只能用
Adobe
FLASH打開
原創文章,作者:GYLQ,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/137568.html