CellMarker对单细胞RNA测序数据进行细胞类型注释的应用

单细胞RNA测序(scRNA-seq)技术已经成为了解生命体系的重要途径之一。然而,scRNA-seq通常会产生大量异质性高的单细胞数据,如何有效和准确地对这些数据进行处理和分析,是当前研究的重要挑战之一。为了解决这个问题,近些年来,出现了许多数据分析工具,其中 CellMarker 是一个针对于单细胞RNA测序数据进行细胞类型注释的工具,该工具具有快速,准确,易用性高等特点。

一、简介

CellMarker 是由中国科学院生物物理研究所的研究团队开发的一个R包,该工具能够自动引用一系列已知的细胞标记物数据库模式匹配,快速准确地对单细胞RNA-seq数据进行细胞类型注释。它还提供了区分浸润和正常细胞的算法,比细胞表达标记物更准确。

CellMarker 目前最新版本为1.1.0,可在CRAN上查找并安装,同时也支持在本地从Github上安装,支持多种文件格式的读取,包括单细胞表达矩阵(counts 或 TPM)、基因 ID 到基因名和细胞 ID 到细胞类型的表格。

二、使用

CellMarker 工具的使用十分简单,大致流程如下:

1、在 R 环境下安装和读入 CellMarker 工具,可以使用如下命令:

install.packages("CellMarker")
library(CellMarker)

2、将单细胞表达矩阵读取到 R 中,可以使用如下命令:

#读取文件 
exprs 6000) {
    rownames(exprs) <- GeneID2Sym[match(rownames(exprs), GeneID2Sym$GeneID), "GeneSymbol"]
} else {
    rownames(exprs) <- GeneID2Sym[match(rownames(exprs), GeneID2Sym$GeneID), "Symbol"]
}

3、运行 CellMarker 工具,对单细胞表达矩阵进行细胞类型注释,可以使用如下命令:

# 默认版本:使用Human Cell Atlas, hca = T
cell_type_pred <- predict_marker_genes(exprs, hca = T, cell_number = 1000)

其中,cell_number 参数表示从第一个细胞到这个数据集中第 n 个细胞,这些细胞将被用来搜索每个类型中的标志基因。

三、优化

CellMarker 工具虽然方便易用,但在实际应用中,我们也需要注意一些有关数据准备和参数设置的问题。

首先,第一个问题是关于数据的准备。我们需要保证单细胞表达矩阵中的基因ID与预先下载的基因名称列表相对应。如果基因 ID 和基因名称列表不匹配,则命令会警告或停止执行。

其次,对于大规模数据集,CellMarker 的默认存储库可能会不足以覆盖所有细胞亚型/类型。因此,我们可以自行建立新的数据库并添加到 CellMarker 中。为了获取最大的参考列表,可以从已知数据库,如Human Protein Atlas导入蛋白质组数据或通过RNA-seq和单细胞RNA-seq公共数据库添加自定义细胞类型。

最后,CellMarker 目前默认使用的是 Human Cell Atlas,这也只是当前可用的模式之一。尽管 CellMarker 已通过其他单细胞数据集的成功应用得到了验证,但是对于新的细胞类型组合数据,正确性和准确性还需要进一步评估。

参考文献:

Qiu, X., Hill, A., Packer, J., Lin, D., Ma, Y., & Trapnell, C. (2017). Single-cell mRNA quantification and differential analysis with Census. Nature methods, 14(3), 309.

Zhang, X., Lan, Y., Xu, J., Quan, F., Zhao, E., Deng, C., … & Liu, S. (2019). CellMarker: a manually curated resource of cell markers in human and mouse. Nucleic acids research, 47(D1), D721-D728.

完整代码示例:https://github.com/Lulab/CellMarker/blob/master/vignettes/CellMarker.Rmd

原创文章,作者:BPPY,如若转载,请注明出处:https://www.506064.com/n/133679.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
BPPY的头像BPPY
上一篇 2024-10-04 00:00
下一篇 2024-10-04 00:00

相关推荐

  • PHPdoc:从注释到文档自动生成,提升代码可读性和开发效率

    现代软件开发中,代码可读性和文档生成都是很重要的事情,因此产生了很多与文档生成相关的工具,其中PHPdoc是PHP世界中最流行的文档生成工具之一。本文从PHPdocument、PH…

    编程 2025-04-24
  • Jupyter注释快捷键使用指南

    一、Jupyter注释快捷键 Jupyter Notebook是一个很受欢迎的交互式代码编写工具,支持Python等多种编程语言,也是科学计算和数据分析领域中广泛使用的工具之一。在…

    编程 2025-04-24
  • PHPStorm注释模板详解

    PHPStorm是一款强大的PHP开发工具,提供了很多实用的功能,其中注释模板是其中之一。在编写代码时,我们需要加上注释来增加代码的可读性、可维护性和可移植性。使用注释模板可以使我…

    编程 2025-04-23
  • IDEA类注释模板详解

    一、注释模板简介 在开发过程中,注释是源代码中不可缺少的部分。IDEA提供了类注释模板,使得开发者能够方便地生成规范的类注释。类注释模板可以提高代码的可读性,加速其他人理解源代码的…

    编程 2025-04-23
  • Idea模板注释解析

    一、基础概念 Idea是一款功能非常强大的集成开发环境,它支持众多的编程语言,拓展性强,用户群庞大。在Idea中,注释是一种程序员为了更好的阅读和维护自己的代码而添加的解释性文档。…

    编程 2025-04-23
  • Matlab注释乱码问题分析

    一、UTF-8编码问题导致注释乱码 Matlab默认使用UTF-8编码方式,当我们在注释中输入非ASCII字符时,可能会出现乱码的情况。解决这个问题的方法是使用unicode编码方…

    编程 2025-04-23
  • Idea设置注释

    一、注释简介 注释是代码中表明程序逻辑和功能的文本,它不会被编译器读取或执行。注释对于代码的可读性和可维护性非常重要,它能够帮助其他开发人员理解代码的含义以及开发人员自己回顾代码时…

    编程 2025-04-22
  • 使用VSCode批量注释

    一、快捷键注释单行/多行代码 在使用VSCode进行开发时,单行或多行注释是经常使用到的操作之一。为了提高开发效率,VSCode提供了多种快捷键进行操作。 如果需要注释某一行代码,…

    编程 2025-04-18
  • Matlab多行注释——全面深入的解析

    一、注释及其作用 在Matlab中,注释是一种在代码中添加说明、解释或提醒的方式。注释可以帮助代码的维护者更好地理解代码的意图,使代码更易读、易懂,方便后期的修改和维护;同时注释也…

    编程 2025-04-13
  • BAT注释符号的详细阐述

    一、REM命令 REM命令是BAT注释符号中最常用的一种,它用于注释代码中不需要执行的部分。 @echo off echo 正在执行代码 REM 下面是一段不需要执行的代码 dir…

    编程 2025-04-12

发表回复

登录后才能评论