一、chipseeker包
chipseeker是一款R語言包,為生物信息學家在ChIP-seq數據分析過程中提供了多種功能模塊。它可以幫助你迅速解析染色質免疫沉澱(ChIP)數據,並對基因組進行注釋。通過比較富集區域和基因組功能注釋,可以推斷哪些轉錄因子或其他因素在調控不同基因的表達中發揮作用。
#下載chipseeker包
source("https://bioconductor.org/biocLite.R")
biocLite("chipseeker")
library(chipseeker)
通過下載該包,即可在自己的R環境中使用chipseeker提供的功能。
二、chipseeker注釋基因
對於富集區域進行基因注釋是ChIP-seq數據分析中非常重要的一步。chipseeker可以幫助我們從多個數據庫、UCSC(The University of California, Santa Cruz)基因組瀏覽器和Gene Ontology數據庫中獲得詳細信息。
#注釋基因
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
peakAnno <- annotatePeak(peaks, tssRegion=c(-3000, 3000), TxDb=txdb, annoDb="org.Hs.eg.db", assignGenes=TRUE)
這裡使用TxDb.Hsapiens.UCSC.hg19.knownGene數據庫對富集區域進行基因注釋,並將注釋信息保存在peakAnno中。
三、chipseeker安裝
安裝chipseeker包非常簡單,可以使用下列代碼:
#安裝chipseeker包
source("https://bioconductor.org/biocLite.R")
biocLite("chipseeker")
library(chipseeker)
同時安裝各依賴包即可使用chipseeker的所有功能。
四、chipseeker與內含子
chipseeker還可以與內含子進行分析,幫助我們更好地解析在內含子流程中出現的差異。
#使用內含子分析功能
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
peakAnno <- annotatePeak(peaks, TxDb=txdb, annoDb="org.Hs.eg.db", region="intron")
這裡通過region=”intron”參數,將分析區域限制在內含子部分。
五、chipseeker注釋
在使用chipseeker進行注釋時,我們需要指定用於注釋的數據庫,可以使用下面的代碼指定數據庫:
#指定注釋數據庫
library(org.Mm.eg.db)
library(TxDb.Mmusculus.UCSC.mm10.knownGene)
txdb <- TxDb.Mmusculus.UCSC.mm10.knownGene
peakAnno <- annotatePeak(peaks, tssRegion=c(-3000, 3000), TxDb=txdb, region="promoter", annotation="org.Mm.eg.db")
這裡使用了org.Mm.eg.db這個數據庫來進行注釋。
六、chipseeker公司
chipseeker是由BGI公司開發的一款開源的生物信息學分析軟件。BGI公司是全球領先的基因組學研究所,在基因組測序和生物大數據分析方面有着豐富的經驗和技術。
七、chipseeker畫熱圖
使用chipseeker可以很方便地畫出ChIP-seq實驗的熱圖,下面是畫熱圖的代碼示例:
library(ggplot2)
library(pheatmap)
data(genesymbol)
pheatmap(peakmatrix, show_rownames=FALSE, scale="row", cluster_cols=FALSE,
annotation_col=peakmatrixAnn, fontsize_row=6, fontsize_col=6)
這裡使用了ggplot2和pheatmap兩個包來畫出熱圖,並將注釋信息保存在peakmatrixAnn中。
八、chipseeker annotatePeak
annotatePeak是chipseeker中非常常用的一個函數,它可以從多個數據庫中提取注釋信息,並將這些信息進行整合。下面是annotatePeak函數的代碼示例:
#使用annotatePeak函數
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
peakAnno <- annotatePeak(peaks, tssRegion=c(-3000, 3000), TxDb=txdb, region="promoter", annotation="org.Hs.eg.db")
這裡我們使用了TxDb.Hsapiens.UCSC.hg19.knownGene這個數據庫,並將分析區域限定在啟動子區域(region=”promoter”)。
九、chipseeker diffbind
diffbind是chipseeker中一種常見的分析技術,主要用於尋找左右樣本之間的差異區域。下面是使用diffbind進行差異分析的代碼示例:
#使用diffbind進行差異分析
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
method <- "DB"
peakObject <- dba(sampleSheet=data.frame(Group=factor(c(rep("Control", 2), rep("Treatment", 2))),
Tissue=factor(c(rep("Liver", 2), rep("Kidney", 2))), row.names=c("Ctl1", "Ctl2", "Trt1", "Trt2")),
peaks=peaks, bRetrieve=TRUE, peakCaller=method, genome="hg19", minQCth=50, minSeqDepth=1000000)
peakAnno <- annotatePeakInBatch(peakObject, AnnotationFeature="GeneRegionIdentifier", TxDb=txdb, annoDb="org.Hs.eg.db")
這裡我們指定了TxDb.Hsapiens.UCSC.hg19.knownGene這個數據庫,並使用了樣本分組的信息來進行差異分析。
十、chipseeker intergenic選取
chipseeker還可以幫助我們從基因組中選取內含子區域,下面是選取內含子區域的代碼示例:
#選取內含子區域
library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
ivl <- gapBetweenTSS(txdb, upstream=3000, downstream=3000)
ivl
這裡使用了TxDb.Hsapiens.UCSC.hg19.knownGene這個數據庫,並將內含子區域保存在ivl中。
綜上所述,chipseeker是一個非常優秀的ChIP-seq數據分析工具包,涵蓋了從基因組注釋到熱圖展示等多個方面的功能模塊。使用chipseeker可以極大的提高ChIP-seq數據的分析效率和精度,為生物學研究提供了重要的支撐。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/300337.html