整合scRNA-seq和ATAC-seq数据分析人类发育过程中造血功能的调控

栏目:最新研究动态 发布时间:2021-05-24
剑桥大学血液学系Ana Cvejic教授团队应用scRNA-seq和scATAC-seq技术对来自胚胎肝脏和骨髓的8,000多个免疫表型HSPCs进行综合分析,探......

2021年3月,剑桥大学血液学系Ana Cvejic教授团队应用scRNA-seq和scATAC-seq技术对来自胚胎肝脏和骨髓的8,000多个免疫表型HSPCs进行综合分析,探索人类发育过程中造血功能的调节机制。该项工作以“Integrative single-cell RNA-seq and ATAC-seq analysis of human developmental hematopoiesis”为题发表在Cell Stem Cell上。

在胚胎发育过程中,造血干细胞(HSCs)需要快速分化为成熟的血细胞。我们目前对胎儿造血干细胞和祖细胞(HSPCs)的认识主要是通过小鼠和体外模型系统取得的。已有研究表明,胎儿造血过程包括发育过程中不同器官上罕见造血干细胞的分化、迁移和分化的几个独立波。在人类中,最终的造血功能开始于怀孕27天后,造血干细胞出现在造血集群的背主动脉内。这些明确的造血干细胞在妊娠后4周(pcw)首先在胎儿肝脏定植,并在那里大量扩张。在10.5 pcw时,造血部位再次转移到骨腔(即骨髓[BM]),成人造血在此处永久建立。人们认为,第一批在骨髓中播种的造血干细胞在其增殖和分化特性发生戏剧性变化之前,会继续快速增加数量,以适应高产量分化子代的需要。

历史上,造血系统的分化过程被描述为一系列中间步骤,由细胞表面标记物(即分化簇[CD])定义。在这个模型中,造血干细胞通常表现为造血树,造血干细胞产生了越来越多的谱系限制性细胞类型,最终导致成熟的血细胞。这种模式在过去的5年里发生了改变,一些研究报告了数千个单个造血细胞的转录组,这些细胞被细胞表面标记物隔离,在小鼠模型和成人中。这些报告表明,以前被认为是同质的祖先种群,实际上在转录水平上是非常异构的。

造血干细胞早期命运决定的机制在很大程度上尚不清楚。据推测,谱系特异性转录因子(TFs)在噪声阈值以上的随机表达可以锁定一个细胞进入一个独特的细胞命运。与此相一致的是,在多能造血细胞中观察到与拮抗谱系相关的基因的共表达,包括关键的TFs,这表明在多能细胞室中存在一些细胞亚群,这些亚群允许细胞在谱系承诺之前的命运相反,这一现象被称为启动。最近,人类hspc的单细胞RNA测序(scRNA-seq)引入了一个不同的启动概念。对成人骨髓和胎儿肝脏造血的研究已经确定了造血干细胞和多能祖细胞(MPPs)的亚群,这些亚群具有协调表达的标记基因,特异于不同的单胎分化程序,并沿着所有分化分支逐渐增加。有一些迹象表明,星状细胞间室的谱系启动可能不仅发生在转录水平,也发生在表观遗传水平。来自成人骨髓表型hspc的转座酶可及染色质测序(scATAC-seq)的单细胞分析数据显示,表型MPPs在染色质可及性方面存在差异。

技术路线:

 

 

一、人胎肝和骨髓造血室的单细胞转录组

 

 



为获取胚胎发育期间造血细胞的全部谱系,研究者从17 – 22 PCW的胚胎肝脏、股骨和髋骨中对表型确定的血液群体进行单细胞分类,并对15个胚胎的单个细胞进行scRNA-seq检测(图1)。基于差异表达分析和标准化表达显著性排名前20的标记基因,标注了23个不同的群体,发现在肝脏或股骨中检测不到任何T细胞或先天淋巴细胞(ILCs),单细胞分析显示在所有免疫表型定义的干细胞和祖细胞群体中存在大量的转录异质性,其中一些表型祖细胞群体(如HSCs,MPPs,CMPs,GMPs,MEPs和CLPs)由10多个不同的转录表型定义群体组成,这进一步证明人类脐带血的祖细胞室具有高度的异质性。此外,该研究分析表明当前使用的细胞表面标记物不能很好地预测人类胚胎造血祖细胞的转录状态

使用SmartSeq2协议对15个胎儿的单个细胞进行scRNA-seq处理(图1 a)。

基于差异表达(DE)分析和按标准化表达显著性排序的前20个标记基因。红细胞(表达HBG1、HBA1、GYPA和ALAS2)、mk(表达FLI1、ITGA2B和GP9)、单核细胞祖细胞和单核细胞(表达CD14、MPEG1和CD33)、CD4+单核细胞、肥大细胞(表达CD63、GATA2和HDC)、浆细胞样树突状细胞(pDCs;表达IL3RA, IRF8, MPEG1和JCHAIN)和另一簇高循环pDCs(表达pDC和增殖标记物;例如,MKI67)和粒细胞1、2和3(表达AZU1、MPO和PRTN3)(图1B)

单细胞分析显示,在所有免疫表型定义的干细胞和祖细胞群体中存在显著的转录异质性,一些表型祖细胞群体(如造血干细胞、MPPs、cmp、gmp、MEPs和CLPs)由超过10个不同的转录定义群体组成(图1 c).

注释了23个不同群体(图1 d).


二、胎儿造血过程中分化轨迹的推断




接下来,研究者使用力导向图绘制算法推断了人类胚胎发育期间造血细胞的分化轨迹。结果显示HSCs/MPPs位于轨迹顶端,并且在HSCs/MPPs下游,研究者鉴定了三个高度增殖的寡能祖细胞群,即MEMPs(红系细胞、MKs和肥大细胞);GPs(粒细胞);LMPs(淋巴样细胞、单核细胞和树突状细胞)(图2A和2B)。并使用Scanpy的paga_path函数显示了沿三条分化途径(MEMPs、GPs和LMPs)的谱系特异性基因动态表达(图2C)。MEMPs将hsc / mpp与MKs、红细胞和肥大细胞连接起来。与此一致的是,HSC/MPP向MEMPs转化的差异调控基因包括MK/红系/肥大细胞谱系特异性基因,如GATA1、ITGA2B、PLEK、KLF1、HDC和MS4A3(图2C)。然后利用SCENIC通过分化轨迹识别出HSPCs和成熟血细胞中162个调节子,其中HLF和HOXA9是HSCs/MPPs中的主要调节子,且HSC/MPPs簇在转录上为高度未成熟的细胞群(图2D)鉴定了一个增殖的MEMPs- cycle群体,92%的MEMPs处于G2M/S期,而65%的MEMPs处于G2M/S期(图2E)。此外,研究者对HSCs/MPPs- cycle和HSCs/MPPs进行DE分析,结果显示HSCs/MPPs- cycle增加了糖酵解相关基因的表达,除了HSCs/MPPS-Cycle簇中存在转录启动外,HSCs/MPPs和HSCs/MPPs-Cycle之间没有其它转录差异。


三、沿着推断分化轨迹的Motif可及性动态

 


 

由于技术限制,scRNA-seq难以检测低丰度转录本(如转录因子TFs),而通过染色质的可及性可推断出这些TFs的活性,因此整合scRNA-seq和scATAC-seq方法具有重要意义。研究者利用scATAC-seq检测了人类胚胎Lin- CD34+ CD38-细胞的单细胞染色质可及性,分别对18、20和21PCW胚胎的肝脏和股骨中的4,001个细胞进行了测序,基于SNN算法,共得到7个不同的可明显分离的集群 (Figure 3A)。scRNA-seq数据中检测了所选标记基因的可及性,与干细胞相关的标记基因(如MLLT3、PROM1、FLI1和GATA2)的可及性较高,而与不同谱系相关的基因(如MPO、ALAS2、MPEG1和CD19)的可及性较低,这与分选细胞的未分化特性一致(图3B)。生成的轨迹显示出两个分支,每个分支的染色质可及性和分化有明显的趋势(图3D和3E)。我们观察到簇1、簇2和簇4的可达性最高,并逐渐向两个分枝的顶端递减。接下来,研究者使用chromVAR计算不同簇中可及性TF序列基序,沿着轨迹推断确定的两个分支,可观察到谱系特异性造血TF基序的可及性的动态变化(如GATA1、TAL1、KLF1、HTF4、ID4、IRF8和TFE2),其中GATA1是红系细胞、巨核细胞和肥大细胞分化的重要调节因子,且仅在scRNA-seq数据集中的MEMP簇中表达;TAL1有两种不同的结合基序,在胎儿造血过程中,这两种基序在不同的造血祖细胞中均具有活性;CEBPD和IRF8的活性对髓系和树突状细胞的分化至关重要;ID4和HTF4参与淋巴系的建立;这与scRNA-seq数据中的观察结果一致(图3F 3H)。

 

四、scRNA-seq和scATAC-seq数据整合




目前尚无人类胚胎HSPCs的染色质可及性图谱,研究者基于基因体可及性绘制细胞图谱来整合scRNA-seq和scATAC-seq数据。首先使用6种丰富的细胞类型对scRNA-seq实验中筛选出的CD34+ CD38- 细胞进行分类,结果显示scATAC-seq数据集中指定细胞类型的频率与scRNA-seq数据中的频率高度一致,这表明染色质可及性和转录组具有相关性。然而,不同类型的细胞在整个轨迹上有相当大的混合,如HSCs/MPPs-Cycle广泛分布在七个集群中,这表明在HSCs/MPP群体中存在广泛的染色质启动,从而导致了异质性。之后研究者比较了7个集群中HSCs /MPPs中选定的谱系特异性TF基序的可及性,结果显示在转录同源的HSCs/MPPs集群中,一些先于基因表达的TFs的活性存在显著差异。 最后,研究者进一步探索分化过程中染色质可及性和基因表达之间的“时滞”,结果显示在HSCs/MPS中,GATA1-调节子靶基因的启动子在任何明显基因表达之前均是开放的,这证实HSCs/MPP中染色质的可及性早于转录变化。


五、gata1调控靶基因的染色质可及性及表达动态




检测了pySCENIC鉴定的最顶层gata1调控靶基因的scRNA-seq和scATAC-seq数据(根据AUCell评分排序)(图5)。

我们观察了两个基因启动子(距转录起始位点3kb [TSS])和远端调控区域(距TSS 50 kb)的可及性,以及沿MEMP分化轨迹所选靶基因的表达水平(图5A)。我们观察到,在造血干细胞/ mpp中,gata1调控靶基因的启动子在任何明显的基因表达之前通常是开放的(图5A)。因此,与我们之前的观察一致,造血干细胞/ mpp的染色质可及性发生在仅存在于分化程度更高的细胞中的转录变化之前。有趣的是,与第1类(hsc /MPPs)相比,第6类(MEMPs)中GATA1靶基因的启动子可及性总体较低(图5B、5D和5E),与拮抗基因(即针对不同谱系的基因)的启动子共可及性较低相吻合(图5F)。相比之下,簇6中远端调控元件/增强子的可及性高于簇1(图5C)。这可能表明gata调控基因可能在启动子上启动,而增强子则提供细胞类型特异性的表达。

 

六、改进分选策略以分离胚胎HSCs/MPPs


研究者基于细胞表面标记设计了一种针对HSCs / MPP的新的荧光激活细胞分选策略(简称CD-REF),使用CD-REF分选板对股骨BM细胞进行分选,结果显示标记为HSCs / MPP和HSCs / MPPs-Cycle簇的CD-REF细胞约占88%。为了评估CD-REF细胞谱系输出的分化潜力和稳健性,研究人员在小鼠MS5饲养层或更具生理相关性的人类胎儿间充质干细胞(fMSCs)上对三个胎儿的单个细胞进行了分选,结果显示MS5和fMSCs上分别存在着四系、三系、双系、单系和未分化的谱系集落。接下来,又对单个CD-REF和免疫表型HSCs进行了分类,结果显示CD-REF在胎儿肝脏和骨髓中富集了多谱系输出的细胞群,且CD-REF细胞具有与表型HSCs相当的多潜能性和谱系输出能力,这与前述分化轨迹探究一致,再次验证CD-REF代表了高富集的HSC/MPPs群体。


七、股骨和肝脏细胞在不同细胞类型之间的统计学差异


HSC / MPP簇中的细胞来源于肝脏,股骨和髋部,这为评估起源于胚胎肝脏或骨髓的HSC/MPP群体中潜在的定性和定量差异提供了机会。研究者首先对处于不同细胞周期状态的肝脏和股骨细胞的数量进行了Fisher精确检验。结果显示,在股骨和肝脏中,绝大多数CD-REF细胞处于G0/G1期,而肝脏中处于S-G2-M期的细胞数量几乎是股骨的两倍。KS和MWW检验显示,与肝脏相比,股骨中HSCs/MPPS中基因表达数量也比较少,但股骨中HSCs/MPPs显著上调了与核小体组装、染色质组装和DNA组装有关的基因,而肝脏中HSC/MPPs显著上调了与肌动蛋细胞骨架重塑、细胞粘附和迁移有关的基因。