
单细胞 RNA 测序技术经历了快速发展,以测量数百至数百万个单个细胞中的数千个基因(以信使 RNA 形式存在的)表达水平。为了探究细胞群体背后的连续生物学过程(例如,分化、免疫反应和癌变),研究人员使用拟时序推断(pseudotime inference)将细胞按照基因表达相似水平排序。在得到拟时序之后,研究人员通常会进行基因差异表达(differential expression,简称为DE)分析来检测哪些基因的表达水平随着拟时序变化,因为这些基因可能在相对应的生物学过程中发挥重要作用。然而,现有的检测拟时序差异基因表达的工具没有考虑拟时序本身的随机性,且常常产生统计上不可靠的p值或过高的错误发现率(FDR)。

为了解决这一问题,2021年4月29日,加州大学洛杉矶分校(UCLA)的李婧翌团队在Genome Biology发表了题为PseudotimeDE: inference of differential gene expression along cell pseudotime with well-calibrated p-values from single-cell RNA sequencing data的文章【1】。在文章中,作者提出了首个考虑了拟时序随机性的差异基因表达检测工具PseudotimeDE。该工具使用子采样(subsampling)来帮助估计拟时序的随机性,使用广义可加模型(GAM)来拟合单个基因表达值和拟时序的关系,并使用置换检验(permutation test)来产生统计学上严格的p值。与现有方法相比,PseudotimeDE 在考虑伪时间推理的不确定性方面具有优势。PseudotimeDE不仅保证产生的p值有严格的统计学意义,还实现了更高的检验效力(power)和更好的对错误发现率的控制(FDR control)。总而言之,PseudotimeDE 对利用单细胞测序数据解析细胞动态有着重要意义。

加州大学洛杉矶分校的李婧翌副教授是该论文的通讯作者,博士生宋东源是该论文的第一作者。PseudotimeDE的R语言软件包已在GitHub发布【2】。
在单细胞转录组学这个蓬勃发展的领域,对于研究人员而言,当前一个重要的问题是如何在众多实验技术和数据分析方法中选择最适合自己要求的技术和方法。从模拟器生成的仿真数据具有两大优点:带有譬如细胞类型等真实信息,并且无需花费过多成本进行生成。因此,一个可以产生逼真的仿真数据的模拟器可以用来帮助研究人员对不同的实验技术和数据分析方法进行评测,从而总结出它们的优缺点和适用范围。尽管研究人员已经开发了多种模拟器,但没有一个模拟器同时满足三个重要属性:保留基因、保留基因间的相关性以及生成任意数量和任意测序深度的细胞。
为了填补这一空白,2021年5月25日,李婧翌团队在Genome Biology杂志发表了题为scDesign2: a transparent simulator that generates high-fidelity single-cell gene expression count data with gene correlations captured的文章【3】。在文章中,作者开发了一个新的模拟器 scDesign2,可以实现以上提到的理想模拟器的三个重要属性并生成仿真度高的单细胞基因表达数据。其中,在保留基因间相关性这一方面,作者使用了Gaussian copula的方法,并在其应用中采用了分布变换来使其适用于离散值的数据。

作者在四种单细胞 RNA-seq 技术(10x Genomics、CEL-Seq2、Fluidigm C1 和 Smart-Seq2)和两种单细胞空间转录组学技术(MERFISH 和pciSeq)的数据上将scDesign2和现有的多种模拟器进行了评测,验证了scDesign2 生成的仿真数据最接近真实数据。接着,以细胞聚类和稀有细胞类型检测这两个计算任务为例,作者使用scDesign2 生成了一系列具有不同测序深度和不同细胞数量的数据,以此来为确定单细胞 RNA-seq 实验设计中的最佳测序深度和细胞数量提供了有效的指导,并且对解决同一问题的计算方法在不同的测序深度和细胞数量下的表现进行了有效的评测。
除了生成高仿真数据的能力外,scDesign2 在可解释性(模型参数具有直接生物学意义)、灵活性(适用于一般的离散值的单细胞基因表达数据)和样本效率(训练不需要很多真实细胞)方面具有优势。由于其可解释性,scDesign2 还可以作为单细胞数据分析流程的中间步骤。例如,其模型估计的基因相关性系数会有助于基因集富集分析、基因网络分析和跨批次细胞整合。
李婧翌副教授和罗格斯大学的李维助理教授(前李婧翌研究组的博士生,于2019年博士毕业后加入罗格斯大学开展独立研究)是该论文的共同通讯作者,博士生孙天毅是该论文的第一作者,博士生宋东源是该论文的第二作者。scDesign2的R语言软件已在GitHub发布【4】。

原文和软件连接
[1] https://genomebiology.biomedcentral.com/articles/10.1186/s13059-021-02341-y
[2] https://github.com/SONGDONGYUAN1994/PseudotimeDE
[3] https://genomebiology.biomedcentral.com/articles/10.1186/s13059-021-02367-2
[4] https://github.com/JSB-UCLA/scDesign2
