CellMarker對單細胞RNA測序數據進行細胞類型注釋的應用

單細胞RNA測序（scRNA-seq）技術已經成為了解生命體系的重要途徑之一。然而，scRNA-seq通常會產生大量異質性高的單細胞數據，如何有效和準確地對這些數據進行處理和分析，是當前研究的重要挑戰之一。為了解決這個問題，近些年來，出現了許多數據分析工具，其中 CellMarker 是一個針對於單細胞RNA測序數據進行細胞類型注釋的工具，該工具具有快速，準確，易用性高等特點。

一、簡介

CellMarker 是由中國科學院生物物理研究所的研究團隊開發的一個R包，該工具能夠自動引用一系列已知的細胞標記物數據庫模式匹配，快速準確地對單細胞RNA-seq數據進行細胞類型注釋。它還提供了區分浸潤和正常細胞的算法，比細胞表達標記物更準確。

CellMarker 目前最新版本為1.1.0，可在CRAN上查找並安裝，同時也支持在本地從Github上安裝，支持多種文件格式的讀取，包括單細胞表達矩陣（counts 或 TPM）、基因 ID 到基因名和細胞 ID 到細胞類型的表格。

二、使用

CellMarker 工具的使用十分簡單，大致流程如下：

1、在 R 環境下安裝和讀入 CellMarker 工具，可以使用如下命令：

install.packages("CellMarker")
library(CellMarker)

2、將單細胞表達矩陣讀取到 R 中，可以使用如下命令：

#讀取文件 
exprs 6000) {
    rownames(exprs) <- GeneID2Sym[match(rownames(exprs), GeneID2Sym$GeneID), "GeneSymbol"]
} else {
    rownames(exprs) <- GeneID2Sym[match(rownames(exprs), GeneID2Sym$GeneID), "Symbol"]
}

3、運行 CellMarker 工具，對單細胞表達矩陣進行細胞類型注釋，可以使用如下命令：

# 默認版本：使用Human Cell Atlas， hca = T
cell_type_pred <- predict_marker_genes(exprs, hca = T, cell_number = 1000)

其中，cell_number 參數表示從第一個細胞到這個數據集中第 n 個細胞，這些細胞將被用來搜索每個類型中的標誌基因。

三、優化

CellMarker 工具雖然方便易用，但在實際應用中，我們也需要注意一些有關數據準備和參數設置的問題。

首先，第一個問題是關於數據的準備。我們需要保證單細胞表達矩陣中的基因ID與預先下載的基因名稱列表相對應。如果基因 ID 和基因名稱列表不匹配，則命令會警告或停止執行。

其次，對於大規模數據集，CellMarker 的默認存儲庫可能會不足以覆蓋所有細胞亞型/類型。因此，我們可以自行建立新的數據庫並添加到 CellMarker 中。為了獲取最大的參考列表，可以從已知數據庫，如Human Protein Atlas導入蛋白質組數據或通過RNA-seq和單細胞RNA-seq公共數據庫添加自定義細胞類型。

最後，CellMarker 目前默認使用的是 Human Cell Atlas，這也只是當前可用的模式之一。儘管 CellMarker 已通過其他單細胞數據集的成功應用得到了驗證，但是對於新的細胞類型組合數據，正確性和準確性還需要進一步評估。

參考文獻：

Qiu, X., Hill, A., Packer, J., Lin, D., Ma, Y., & Trapnell, C. (2017). Single-cell mRNA quantification and differential analysis with Census. Nature methods, 14(3), 309.

Zhang, X., Lan, Y., Xu, J., Quan, F., Zhao, E., Deng, C., … & Liu, S. (2019). CellMarker: a manually curated resource of cell markers in human and mouse. Nucleic acids research, 47(D1), D721-D728.

完整代碼示例：https://github.com/Lulab/CellMarker/blob/master/vignettes/CellMarker.Rmd

原創文章，作者：BPPY，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/133679.html

CellMarker對單細胞RNA測序數據進行細胞類型注釋的應用

一、簡介

二、使用

三、優化

相關推薦

發表回復