單細胞RNA測序(scRNA-seq)技術已經成為了解生命體系的重要途徑之一。然而,scRNA-seq通常會產生大量異質性高的單細胞數據,如何有效和準確地對這些數據進行處理和分析,是當前研究的重要挑戰之一。為了解決這個問題,近些年來,出現了許多數據分析工具,其中 CellMarker 是一個針對於單細胞RNA測序數據進行細胞類型注釋的工具,該工具具有快速,準確,易用性高等特點。
一、簡介
CellMarker 是由中國科學院生物物理研究所的研究團隊開發的一個R包,該工具能夠自動引用一系列已知的細胞標記物數據庫模式匹配,快速準確地對單細胞RNA-seq數據進行細胞類型注釋。它還提供了區分浸潤和正常細胞的算法,比細胞表達標記物更準確。
CellMarker 目前最新版本為1.1.0,可在CRAN上查找並安裝,同時也支持在本地從Github上安裝,支持多種文件格式的讀取,包括單細胞表達矩陣(counts 或 TPM)、基因 ID 到基因名和細胞 ID 到細胞類型的表格。
二、使用
CellMarker 工具的使用十分簡單,大致流程如下:
1、在 R 環境下安裝和讀入 CellMarker 工具,可以使用如下命令:
install.packages("CellMarker") library(CellMarker)
2、將單細胞表達矩陣讀取到 R 中,可以使用如下命令:
#讀取文件 exprs 6000) { rownames(exprs) <- GeneID2Sym[match(rownames(exprs), GeneID2Sym$GeneID), "GeneSymbol"] } else { rownames(exprs) <- GeneID2Sym[match(rownames(exprs), GeneID2Sym$GeneID), "Symbol"] }
3、運行 CellMarker 工具,對單細胞表達矩陣進行細胞類型注釋,可以使用如下命令:
# 默認版本:使用Human Cell Atlas, hca = T cell_type_pred <- predict_marker_genes(exprs, hca = T, cell_number = 1000)
其中,cell_number 參數表示從第一個細胞到這個數據集中第 n 個細胞,這些細胞將被用來搜索每個類型中的標誌基因。
三、優化
CellMarker 工具雖然方便易用,但在實際應用中,我們也需要注意一些有關數據準備和參數設置的問題。
首先,第一個問題是關於數據的準備。我們需要保證單細胞表達矩陣中的基因ID與預先下載的基因名稱列表相對應。如果基因 ID 和基因名稱列表不匹配,則命令會警告或停止執行。
其次,對於大規模數據集,CellMarker 的默認存儲庫可能會不足以覆蓋所有細胞亞型/類型。因此,我們可以自行建立新的數據庫並添加到 CellMarker 中。為了獲取最大的參考列表,可以從已知數據庫,如Human Protein Atlas導入蛋白質組數據或通過RNA-seq和單細胞RNA-seq公共數據庫添加自定義細胞類型。
最後,CellMarker 目前默認使用的是 Human Cell Atlas,這也只是當前可用的模式之一。儘管 CellMarker 已通過其他單細胞數據集的成功應用得到了驗證,但是對於新的細胞類型組合數據,正確性和準確性還需要進一步評估。
參考文獻:
Qiu, X., Hill, A., Packer, J., Lin, D., Ma, Y., & Trapnell, C. (2017). Single-cell mRNA quantification and differential analysis with Census. Nature methods, 14(3), 309.
Zhang, X., Lan, Y., Xu, J., Quan, F., Zhao, E., Deng, C., … & Liu, S. (2019). CellMarker: a manually curated resource of cell markers in human and mouse. Nucleic acids research, 47(D1), D721-D728.
完整代碼示例:https://github.com/Lulab/CellMarker/blob/master/vignettes/CellMarker.Rmd
原創文章,作者:BPPY,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/133679.html