CellMarker對單細胞RNA測序數據進行細胞類型注釋的應用

單細胞RNA測序(scRNA-seq)技術已經成為了解生命體系的重要途徑之一。然而,scRNA-seq通常會產生大量異質性高的單細胞數據,如何有效和準確地對這些數據進行處理和分析,是當前研究的重要挑戰之一。為了解決這個問題,近些年來,出現了許多數據分析工具,其中 CellMarker 是一個針對於單細胞RNA測序數據進行細胞類型注釋的工具,該工具具有快速,準確,易用性高等特點。

一、簡介

CellMarker 是由中國科學院生物物理研究所的研究團隊開發的一個R包,該工具能夠自動引用一系列已知的細胞標記物數據庫模式匹配,快速準確地對單細胞RNA-seq數據進行細胞類型注釋。它還提供了區分浸潤和正常細胞的算法,比細胞表達標記物更準確。

CellMarker 目前最新版本為1.1.0,可在CRAN上查找並安裝,同時也支持在本地從Github上安裝,支持多種文件格式的讀取,包括單細胞表達矩陣(counts 或 TPM)、基因 ID 到基因名和細胞 ID 到細胞類型的表格。

二、使用

CellMarker 工具的使用十分簡單,大致流程如下:

1、在 R 環境下安裝和讀入 CellMarker 工具,可以使用如下命令:

install.packages("CellMarker")
library(CellMarker)

2、將單細胞表達矩陣讀取到 R 中,可以使用如下命令:

#讀取文件 
exprs 6000) {
    rownames(exprs) <- GeneID2Sym[match(rownames(exprs), GeneID2Sym$GeneID), "GeneSymbol"]
} else {
    rownames(exprs) <- GeneID2Sym[match(rownames(exprs), GeneID2Sym$GeneID), "Symbol"]
}

3、運行 CellMarker 工具,對單細胞表達矩陣進行細胞類型注釋,可以使用如下命令:

# 默認版本:使用Human Cell Atlas, hca = T
cell_type_pred <- predict_marker_genes(exprs, hca = T, cell_number = 1000)

其中,cell_number 參數表示從第一個細胞到這個數據集中第 n 個細胞,這些細胞將被用來搜索每個類型中的標誌基因。

三、優化

CellMarker 工具雖然方便易用,但在實際應用中,我們也需要注意一些有關數據準備和參數設置的問題。

首先,第一個問題是關於數據的準備。我們需要保證單細胞表達矩陣中的基因ID與預先下載的基因名稱列表相對應。如果基因 ID 和基因名稱列表不匹配,則命令會警告或停止執行。

其次,對於大規模數據集,CellMarker 的默認存儲庫可能會不足以覆蓋所有細胞亞型/類型。因此,我們可以自行建立新的數據庫並添加到 CellMarker 中。為了獲取最大的參考列表,可以從已知數據庫,如Human Protein Atlas導入蛋白質組數據或通過RNA-seq和單細胞RNA-seq公共數據庫添加自定義細胞類型。

最後,CellMarker 目前默認使用的是 Human Cell Atlas,這也只是當前可用的模式之一。儘管 CellMarker 已通過其他單細胞數據集的成功應用得到了驗證,但是對於新的細胞類型組合數據,正確性和準確性還需要進一步評估。

參考文獻:

Qiu, X., Hill, A., Packer, J., Lin, D., Ma, Y., & Trapnell, C. (2017). Single-cell mRNA quantification and differential analysis with Census. Nature methods, 14(3), 309.

Zhang, X., Lan, Y., Xu, J., Quan, F., Zhao, E., Deng, C., … & Liu, S. (2019). CellMarker: a manually curated resource of cell markers in human and mouse. Nucleic acids research, 47(D1), D721-D728.

完整代碼示例:https://github.com/Lulab/CellMarker/blob/master/vignettes/CellMarker.Rmd

原創文章,作者:BPPY,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/133679.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
BPPY的頭像BPPY
上一篇 2024-10-04 00:00
下一篇 2024-10-04 00:00

相關推薦

  • PHPdoc:從注釋到文檔自動生成,提升代碼可讀性和開發效率

    現代軟件開發中,代碼可讀性和文檔生成都是很重要的事情,因此產生了很多與文檔生成相關的工具,其中PHPdoc是PHP世界中最流行的文檔生成工具之一。本文從PHPdocument、PH…

    編程 2025-04-24
  • Jupyter注釋快捷鍵使用指南

    一、Jupyter注釋快捷鍵 Jupyter Notebook是一個很受歡迎的交互式代碼編寫工具,支持Python等多種編程語言,也是科學計算和數據分析領域中廣泛使用的工具之一。在…

    編程 2025-04-24
  • PHPStorm注釋模板詳解

    PHPStorm是一款強大的PHP開發工具,提供了很多實用的功能,其中注釋模板是其中之一。在編寫代碼時,我們需要加上注釋來增加代碼的可讀性、可維護性和可移植性。使用注釋模板可以使我…

    編程 2025-04-23
  • IDEA類注釋模板詳解

    一、注釋模板簡介 在開發過程中,注釋是源代碼中不可缺少的部分。IDEA提供了類注釋模板,使得開發者能夠方便地生成規範的類注釋。類注釋模板可以提高代碼的可讀性,加速其他人理解源代碼的…

    編程 2025-04-23
  • Idea模板注釋解析

    一、基礎概念 Idea是一款功能非常強大的集成開發環境,它支持眾多的編程語言,拓展性強,用戶群龐大。在Idea中,注釋是一種程序員為了更好的閱讀和維護自己的代碼而添加的解釋性文檔。…

    編程 2025-04-23
  • Matlab注釋亂碼問題分析

    一、UTF-8編碼問題導致注釋亂碼 Matlab默認使用UTF-8編碼方式,當我們在注釋中輸入非ASCII字符時,可能會出現亂碼的情況。解決這個問題的方法是使用unicode編碼方…

    編程 2025-04-23
  • Idea設置注釋

    一、注釋簡介 注釋是代碼中表明程序邏輯和功能的文本,它不會被編譯器讀取或執行。注釋對於代碼的可讀性和可維護性非常重要,它能夠幫助其他開發人員理解代碼的含義以及開發人員自己回顧代碼時…

    編程 2025-04-22
  • 使用VSCode批量注釋

    一、快捷鍵注釋單行/多行代碼 在使用VSCode進行開發時,單行或多行注釋是經常使用到的操作之一。為了提高開發效率,VSCode提供了多種快捷鍵進行操作。 如果需要注釋某一行代碼,…

    編程 2025-04-18
  • Matlab多行注釋——全面深入的解析

    一、注釋及其作用 在Matlab中,注釋是一種在代碼中添加說明、解釋或提醒的方式。注釋可以幫助代碼的維護者更好地理解代碼的意圖,使代碼更易讀、易懂,方便後期的修改和維護;同時注釋也…

    編程 2025-04-13
  • BAT注釋符號的詳細闡述

    一、REM命令 REM命令是BAT注釋符號中最常用的一種,它用於注釋代碼中不需要執行的部分。 @echo off echo 正在執行代碼 REM 下面是一段不需要執行的代碼 dir…

    編程 2025-04-12

發表回復

登錄後才能評論