一、Pathview簡介
Pathview是一款在Metabolomics, proteomics, transcriptomics, genomics等領域可視化通路及基因表達的R/Bioconductor程序包。它主要用於在Whole Pathway Network(WPN)通路圖中展示差異表達基因、代謝物或蛋白質等。Pathview包含兩個主要部分:pathviewGraph和odbcGraph,可以實現基於圖形的跨平台、多元化的生物通路數據分析。
Pathview獨特的特點在於它全面支持多種生物通路數據,比如Kanehisa的KEGG和Reactome等以及MetaCyc、PlantCyc和BioCyc等其他一些免費的生物學通路庫。此外,Pathview還支持用戶自定義通路組裝等功能。
二、Pathview的應用
1. 數據準備
為了使用Pathview,我們應該先準備好符合條件的數據。Pathview需要基礎的生物通路信息,例如通路基因、代謝物及反應信息(.gpml 或 .xml)等。同時設計基因表達數據,其格式可以為txt或csv。基因ID或名稱需與通路圖上列出的信息一致。以下是一個示例代碼:
library(pathview) # 下載數據 urlfile <- "http://pathview.uncc.edu/data/" pwdata("KEGGregistry.Rdata.f", "human.corrset.p") # 導入數據 kegg <- system.file("extdata/kegg", package="pathview") map <- system.file("extdata/corr", package="pathview") data(pwdata, package="pathview") kegg.genes <- read.csv(file.path(kegg, "gList.gmt"), sep='\t', stringsAsFactors=FALSE) # 找到位於hsa04110上的基因 leads <- kegg.genes[ grep( "^hsa04110", kegg.genes[, 2] ), 1 ] # 下載該基因組狀況 pw <- params2Data("pathview",x='hsa04110', species='hsa', gene.data='human.corrset.p', gene.id.type="symbol", id.input=leads) # 計算富集解析度(enrichment resolution) resfold <- 1.5 resadj <- "bon" cw <- pw2graph(pw, pathway.id=TRUE) cglst <- allGeneView(cw, pw, res.fold=resfold, res.adjust=resadj, graph.context="KEGG") write.table(cglst, "hsa04110.gene.list.txt", quote=FALSE, col.names=NA)
2. 繪圖和編輯
接下來,我們可以根據前面準備好的數據利用Pathview進行繪圖。這裡用hsa04110通路為例,代碼如下:
library(pathview) # 下載數據 urlfile <- "http://pathview.uncc.edu/data/" pwdata("KEGGregistry.Rdata.f", "human.corrset.p") # 導入數據 kegg <- system.file("extdata/kegg", package="pathview") map <- system.file("extdata/corr", package="pathview") data(pwdata, package="pathview") kegg.genes <- read.csv(file.path(kegg, "gList.gmt"), sep='\t', stringsAsFactors=FALSE) # 確定數據的文件路徑 data.dir <- "D:/GEO/pathview/input/" out.dir <- "D:/GEO/pathview/output/" # 生成圖形 mapfile <- file.path(kegg, "hsa04110.xml") datafile <- file.path(data.dir, "hsa04110.gene.data.txt") outfile <- file.path(out.dir, "hsa04110.pathview.png") pathview(gene.data=datafile, pathway.id='hsa04110', species='hsa', mapfile=mapfile, outfile=outfile, kegg.native=TRUE)
3. 結果解讀
當繪圖完成後,我們需要對結果進行解讀。圖例中黑色表示差異表達的基因,其向上和向下的箭頭分別表示上調和下調基因。Pathview的輸出數據包括多個文件,其中最重要的為以下三個文件:
- gene.data
- pathview.gpml
- pathview.png
gene.data文件提供了所有差異表達基因信息。pathview.gpml是一個通路文件,展示了整個通路和基因。pathview.png是可視化圖像。
三、Pathview的優缺點
1. 優點
Pathview的優點如下:
- 提供了豐富的生物信息,包括50多個物種的KEGG通路和其他常用通路庫。
- 與多種數據源(如RNA-seq和microarray數據)兼容。
- 支持用戶自定義通路和數據。
- 生成高質量、美觀的圖形。
- 提供了豐富的結果解讀。
2. 缺點
Pathview的缺點如下:
- 有些功能需要先搭建WPN資料庫才能使用,因此初學者可能需要更多時間了解和學習。
- 對於一些特殊的應用,可能需要自行修改軟體實現。
四、總結
Pathview是一款可靠且易用的生物通路分析工具,可幫助用戶檢測差異表達基因,代謝物或蛋白質在通路圖中的變化。通過提供豐富的生物信息,Pathview有望成為研究生物信息學、代謝組學和蛋白質組學的人士的得力助手。
原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-tw/n/245067.html