【文献解读】CellOracle:基于单细胞多组学数据构建基因调控网络以推断影响细胞身份转变的关键调控因子 | Nature

一、研究背景
理解细胞身份的调控机制有助于更好地理解发育和疾病发生发展机制,为细胞重编程提供新策略,为疾病治疗提供新思路。此前,单细胞技术与扰动技术的结合(例如scRNA-seq与群体CRISPR技术的结合)使分析细胞身份的调控机制成为可能,但并不适用于大批量地应用于多种生物背景。因此,亟需不依赖于扰动实验数据的计算方法,以模拟基因扰动后细胞身份的转变,从而实现对细胞身份调控机制大批量的解析。

从单细胞组学数据中重构的基因调控网络(gene-regulatory network, GRN)代表了基因之间复杂、动态的相互调控关系,是细胞身份的关键决定因素。基于基因调控网络不仅可以大批量模拟关键调控因子对于细胞身份转变的影响,还能解析出其中基因调控的因果关系,为发育和分化提供机制性的理解。
近日,华盛顿大学医学院的研究团队在Nature上发表题为“Dissecting cell identity via network inference and in silico gene perturbation”的文章。研究团队开发了一种机器学习新算法CellOracle,该算法结合scATAC-seq数据与scRNA-seq数据为不同的背景构建特定的GRN模型,利用该模型模拟转录因子(transcription factor, TF)扰动后细胞身份的转变,为特定环境中TF的调控细胞身份的功能提供了系统和直观的解释。


二、
研究结果
1、CellOracle模拟基因扰动原理概述
CellOracle使用GRN模拟TF敲除或过表达后基因表达的全局变化,并从中推断出细胞身份转换的方向。CellOracle的模拟主要包含以下四步:1)基于多组学数据,使用基于聚类的正则化线性回归模型构建特定细胞类型或细胞状态的GRN。2)基于特定的GRN模型,通过迭代,计算由TF扰动引发的全局基因表达量的变化。3)通过比较基因表达量变化与邻近细胞的基因表达,确定细胞身份转变概率。4)计算细胞身份转换概率的加权局部平均向量,以代表模拟中TF 扰动后每个细胞的细胞状态转换的方向。

2、
GRN模型的构建

CellOracle的GRN将基因间的调控关系构建为有向网络的边,从而传播由TF扰动引起的表达量的变化。特定背景下GRN的构建步骤如下:

首先,借助转录起始位点数据库和Cicero算法,从scATAC-seq数据中识别出可能存在相互作用的启动子与增强子区域。扫描这些区域中TF的结合序列,从而构建一个包含所有潜在调控关系的基础GRN结构(图1,左图)。借助scATAC-seq数据构建基础的GRN结构不仅有助于缩小潜在的调控关系的数量,同时也能确定基因调控的方向,提高模型的准确性。

随后,借助scRNA-seq数据,CellOracle识别出基础的GRN结构中活跃的调控关系,为scRNA-seq中每一类细胞构建特异的GRN(图1,右图)。CellOracle将TF对靶基因的调控作用构建为带正则化的线性模型,利用每一类细胞的基因表达数据分别对各自的GRN进行拟合,以获得细胞类型或细胞状态特异性的GRN。

作者将CellOracle构建的GRN模型与Chip-seq数据以及其他GRN构建算法比较,证实了该方法的准确性。

图1 特定背景下GRN模型的构建

3、
造血细胞分化系统中GRN分析以及TF敲除模拟

为了测试CellOracle的准确性,首先验证CellOracle是否能重现出在小鼠骨髓祖细胞分化中已知的TF的功能。在计算模拟中,Spi1的敲除促进了巨核细胞和红细胞祖细胞(megakaryocyte and erythroid progenitors, MEP)方向的分化,同时抑制了粒细胞巨噬细胞祖细胞(granulocyte–monocyte progenitors, GMP)方向的分化(图2e),而Gata1的模拟敲除结果与之相反(图2f),与之前的研究结果一致。在该系统中进一步模拟90个TF的敲除,也可以发现CellOracle的模拟结果与先前研究中的干扰实验的结果具有很强的一致性(图2i)。

图2 CellOracle在造血细胞分化系统中的应用

随后,作者进一步使用TF敲除的scRNA-seq数据验证CellOracle模拟的准确性。作者使用Markov随机游走基于细胞模拟的转换方向来评估TF扰动对于细胞数量分布的影响。在计算模拟中,Cebpa的敲除使GMP方向的分化被停留在了GMP-晚GMP,但促进了红系分化(图3b),而Cebpe的敲除使细胞停留在了粒细胞分化的进入阶段(图3c),这都与实验的敲除结果一致(图3d)。

图3 使用Cebpa和Cebpb敲除的scRNA-seq数据中的细胞密度进一步验证CellOracle在造血细胞分化过程中的模拟


4、斑马鱼中TF敲除的系统性研究

作者重点研究了斑马鱼的轴向中胚层分化过程中图4a,b232个TF的模拟敲除结果。使用度中心性作为衡量标准,CellOracle成功地预测了noto以及其他几个有名的脊索调节因子在脊索发育中的作用(图4c)。同时CellOracle的模拟显示noto的敲除将导致脊索分化停止,并促进脊索前板分化(图4d-f),显示CellOracle可以为未知的TF敲除结果提供预测。

图4 CellOracle在斑马鱼胚胎发育过程中的敲除模拟


5、Noto功能丧失的实验验证
作者首先是用了25 flhn1/n1 突变胚胎的scRNA-seq验证Noto功能丧失后的结果。相比于对照组,25 flhn1/n1的脊索细胞明显减少,但脊索前板细胞增多(图5c-e),与CellOracle模拟结果一致。此外,CRISPR实验也验证了同样的结果(图5c-e)。这些结果不仅证明了CellOracle对于TF扰动模拟的准确性,也展示了其在突变体中量化表型的能力。

图5 实验验证noto功能丧失的结果

6、
斑马鱼中轴向中胚层调节因子的发现

作者根据计算模拟的TF敲除结果对TF进行排序(图6a),研究早期分化中起重要功能的的TF。除了在之前研究中已知的与中胚层分化相关的TF外,作者挑选了三个并未报道相关的TFlhx1a,sebox和irx3a对这些TF的潜在调节功能进行实验验证。CellOracle模拟结果显示,lhx1a,sebox和irx3a的功能丧失均会破坏脊索分化过程(图6b)。CRISPR实验进一步验证了lhx1a和sebox在中胚层分化中的调节作用。lhx1a敲除的细胞展现出了轴向中胚层分化受到抑制,早期脊索细胞显著增多,晚期脊索细胞以及脊索前板细胞减少的趋势(图6c-e)。此外,相比于对照组,lhx1a敲除细胞中与早期脊索相对应的基因模块也呈现出显著激活,而晚期脊索基因模块相对沉默(图6f,g)。同时,对各类细胞的特征基因(nog1(脊索晚期)、gsc(脊索前板)和twist2(脊索))进行RNA荧光原位杂交表明,这些基因在lhx1a敲除细胞中显著下调(图6i-k),进一步验证了lhx1a功能丧失后轴向中胚层发育显著受阻。这些结果证明CellOracle能够准确预测已知的TF扰动表型,提供对已知突变的解析,并揭示在充分研究的模式生物中发育过程的调控因子。

图6 lhx1a作为斑马鱼轴向中胚层发育调节因子的实验验证

三、研究结论
综上所述,作者开发了一款基于机器学习的新算法CellOracle,
能够
通过结合多组学数据为不同的生物背景构建特异性基因调控网络,并基于调控网络研究TF扰动对细胞身份转变的影响。作者在哺乳动物造血细胞分化系统以及斑马鱼胚胎发育分化系统中验证了这一算法的可靠性,并利用该算法发现了新的轴向中胚层发育调节因子。基于CellOracle算法,可以更全面清晰地了解转录因子对于细胞身份转变的调控作用,为发育和分化提供机制性的解释。


参考文献:
Kamimoto K, Stringa B, Hoffmann CM, Jindal K, Solnica-Krezel L, Morris SA. Dissecting cell identity via network inference and in silico gene perturbation. Nature. 2023;614(7949):742-751. doi:10.1038/s41586-022-05688-9