携带重要表观遗传信息的化学修饰碱基的直接类似物,如m5C/5mC,hm5C/5hmC和m6A/6mA,分别在RNA和DNA中检测到。修饰的碱基n4-乙酰胞嘧啶(ac4C)在RNA中的研究已经很好,但它在细胞DNA中的存在和表观遗传作用还没有被探索。本研究通过多种检测方法证实了拟南芥基因组DNA中存在n4-乙酰脱氧胞嘧啶(4acC)。对4acC修饰的全基因组分析表明,4acC峰大多分布在拟南芥的常染色质区,在近一半的表达蛋白编码基因中都有4acC峰的存在,4acC主要位于转录起始位点附近,与基因表达水平呈正相关。5mC的不平衡并不直接影响4acC的修饰。我们还描述了4acC与5mC和组蛋白修饰的关系,这些修饰协同调节基因表达。此外,通过质谱分析,在水稻、玉米、小鼠和人类基因组DNA中也检测到4acC。我们的研究结果表明4acC在高等真核生物中是一种未知的DNA修饰。我们确定了该标记与其他表观遗传标记在基因表达调控中的潜在相互作用。本文于2022年2月发表于Genome Biology(IF=17.906)上。
技术路线:
主要研究结果:
(1) 拟南芥gDNA中4acC修饰的特征
为了确定gDNA中4acC的存在,我们使用一种特异性识别mRNA中ac4C碱基的抗体,通过免疫印迹分析检测了4acC,该抗体已用于mRNAs中ac4C位点的全基因组分析。在免疫-Southern blot试验中,用RNase-A去除gDNA中的RNA,用凝胶电泳分离可能残留的RNA。从含有0.2 μg纯化gDNA的凝胶中很容易检测到4acC信号(图1a)。我们进一步用羟胺处理gDNA,羟胺可以使总RNA中的ac4C去乙酰化,通过抗4acC斑点杂交(anti-4acC dot blot),我们发现处理后的样品比未处理的样品信号大大减少(图1b),支持DNA中4acC的存在。
此外,应用超高效液相色谱-电喷雾质谱法(uplc-MS/MS)检测和定量了拟南芥gDNA中的4acC。与4acC标准的保留时间约2.81 min相匹配的峰均存在于拟南芥gDNA中,而在模拟样品中不存在(图1c-e)。3周龄的col0莲座叶gDNA中4acC水平为0.1% (4acC/dC)(图1f)。羟胺处理后,4acC的丰度下降到dC的0.02%(图1f),进一步支持了4acC在拟南芥gDNA中的存在。这些结果表明,4acC修饰在高等真核生物中是一个丰富而普遍的表观遗传标记。
(2) 拟南芥4acC基因的全基因组定位
为了探索4acC的表观遗传作用,我们研究了4acC在拟南芥基因组区域的分布,包括基因间区、启动子(TSS上游1 kb内)、基因体及其子区域。我们发现82%的4acC峰位于基因体上,其中一半位于外显子中(图2a)。蛋白质编码基因组成了4acC乙酰化基因的最大群体(图2b,右图),基因组中41%的蛋白质编码基因包含4acC修饰(图2b,左图)。在其他类型的基因中也检测到4acC,如假基因、TE基因和非编码RNA基因(图2b,左图)。大多数蛋白质编码基因在基因体中包含一个4acC峰(图2c)。为了进一步分析4acC在基因中的分布模式,我们绘制了所有基因的4acC-ip和输入reads在整个编码区和1kb的上游和下游。拟南芥全基因组的4acC位置在TSS附近富集(图2d)。图2e显示了4acC分布的一个代表性特征。为了验证这些峰确实代表4acC修饰,我们用羟胺处理DNA以部分去除4acC修饰。对羟胺处理样品的IP-seq分析显示,与未处理样品相比,处理样品中的几乎所有峰都大幅减少,但没有消除(图2d, e),这表明这些峰确实与4acC修饰有关。因此,4acC修饰是区域特异性的,在蛋白质编码基因的TSSs周围高度富集。
(3) 4acC修饰与转录的相关性
拟南芥基因中TSSs周围的4acC峰高度富集,促使我们研究4acC与基因表达的关系。为此,我们对两个生物重复进行RNA-seq以分析单个基因的表达,结果显示Pearson相关系数很高(R = 0.99)(补充图未展示)。根据RNA-seq数据,FPKM>0和FPKM>1分别检测到21,950和12,615个基因(FPKM表示外显子每千碱基的片段/百万片段)(图3a)。在FPKM值为>0或1的表达基因中,分别有45%或46%以上的表达基因含有4acC修饰。此外,89%或51%的4acc标记基因的FPKM值分别为>0或1。我们进一步对有或没有4acC修饰的表达基因(FPKM>0)的基因本体(GO)术语进行了分类。使用agriGO v2.0发现含有4acc的基因富集了192个术语(补充表未展示),但不含4acc的基因富集了24个术语(补充表未展示)。这表明,4acc修饰的表达基因比非4acc表达的基因参与更多样化的生物学功能。
为了探究4acC与基因表达的关系,我们将基因组中所有蛋白编码基因按照表达水平分为前四25%、25-50%、50-75%和75-100%四组。这四组的4acC丰度图显示,在TSS区域周围,强表达基因的4acC占用率高于弱表达基因(图3b)。在全基因组水平上,含有4acC的基因的表达水平显著高于没有4acC修饰的基因,此外,在TSS周围有4acC峰值的基因(在以TSS为中心的250 bp窗口内)的表达高于非TSS区域修饰的基因(图3c)。因此,4acC修饰,特别是在TSS区域,与基因表达密切相关。
(4) 4acC与5mC DNA修饰的关系
考虑到4acC和5mC都是拟南芥基因组中大量存在的DNA修饰,我们研究了这两种修饰是否相互作用。首先,研究了4acC在染色体上的分布。与富集于周围熵质异染色质的5mC相反,4acC峰大多位于常染色质区域(图4a)。因此,4acC和5mC似乎占据了基因组的不同区域。其次,分析了5mC在4acC峰及其上游、下游1 kb区域的分布和修饰水平。4acC富集区域的mCG、mCHG和mCHH水平低于随机选择区域(图4b),进一步支持了4acC和5mC分布在不同位置的观点。
为了检验5mC的不平衡是否影响4acC修饰,我们分析了两个DNA甲基化突变体met1和ros1dml2dml3 (rdd)的全基因组4acC修饰。在Col-0野生型(WT)中发现的4acC的tssenrich分布模式也在met1和rdd突变体中观察到(图4c)。然而,与WT植株相比,met1和rdd突变体的整体4acC丰度都降低了(补充图未展示)。峰召唤后,met1和rdd突变体中分别检测到8024和8876个4acC峰,其中98%的4acC峰与WT植株中检测到的峰重叠(图4d)。met1和rdd突变体的DARs与DMRs的重叠明显低于随机区域,这意味着DARs与DMRs没有关联(图4e,f)。此外,met1突变体中的DARs在mCG水平上的变化比随机选择的区域略低(图4g),因为4acc富集区域的DNA甲基化程度较低。此外,rdd突变体中的DARs在mCG、mCHG和mCHH水平上有倍性变化,与随机选择的区域相似(图4h-j)。因此,met1和rdd突变体中4acC的改变与5mC修饰的改变没有直接关联。met1和rdd突变体中4acC的多个表观遗传标记或书写或擦除的改变可能导致4acC水平的全局降低。
为了研究4acC水平的变化对基因表达的影响,我们分析了met1突变体与WT相比差异表达基因(DEGs)和唯一差异乙酰化基因(uDAGs)之间的重叠。我们利用之前研究中met1突变体的RNA-seq数据,发现45%的uDAGs在met1和WT植物中表达显著差异。此外,在met1突变体中,有36%的DEGs与uDAGs重叠(补充图未展示),这表明4acC在基因表达调控中发挥作用。
(5) 4acC和5mC修饰在基因表达调控中的协同作用
由于在基因体中被5mC甲基化的基因也被发现具有高表达,我们比较了4acC和5mC在蛋白质编码基因中的分布,并研究了它们对基因表达的协同作用。值得注意的是,与4acc富集区域比随机区域含有更低的CG、CHG和CHH甲基化水平的发现相比(图4b),4acc标记的基因在基因体中显示出更高的mCG甲基化水平(图5a),但比非4acc标记的基因(图5b,c)更低的mCHG和mCHH上下文水平。几乎所有基因都含有mCG,有重度、中度和轻度mCG修饰的基因表现出中等、较低和较高水平的基因表达(图5d)。因此,mCG的程度与基因表达无显著相关性。对于没有4acC的基因,高mCG基因的表达高于中mCG或低mCG基因的表达,而对于有4acC的基因,低mCG基因的表达高于高mCG或中mCG基因的表达(图5d)。因此,对于中度或低mCG的基因,4acC与基因表达增加强相关。在不同的4acC和mCG组合中,含有4acC的低mCG与最高的基因表达相关,而不含4acC的中低mCG与最低的基因表达相关(图5d)。这些数据表明,4acC对基因表达有积极的影响,其影响在低mCG基因中最为强烈。这些数据也为mCG水平和基因表达水平之间的松散联系提供了解释,因为4acC是基因表达水平的另一个重要贡献者。
(6) 4acC与组蛋白修饰标记的共定位和相互作用
4acC修饰、TSS周围高度富集以及与基因表达呈正相关的特点促使我们研究了4acC与活性染色质标记的共定位。我们观察到4acC与活性修饰标记显著共定位,包括H3K4 di/三甲基化(H3K4me2/3)、H3K36三甲基化(H3K36me3)、H3K9乙酰化(H3K9ac)和H3K14乙酰化(H3K14ac)(图6a,b)。总的来说,32-57%的4acC峰与活性修饰标记重叠,显著高于随机发生的重叠百分比(图6b)。令人惊讶的是,15%的4acC峰显示与抑制标记H3K27三甲基化(H3K27me3)重叠,这也显著高于偶然发生的重叠百分比(图6b)。4acC峰与另一抑制标志H3K9二甲基化(H3K9me2)的重叠显著低于预期(图6b)。总的来说,抑制性组蛋白修饰标记的4acC峰重叠比例低于活性组蛋白修饰标记的重叠比例。因此,4acC表现出高度共定位与活跃的组蛋白修饰标记。
我们随后分析了组蛋白修饰和4acC对基因表达水平的联合影响。正如之前所观察到的,H3K27me3基因的表达低于没有H3K27me3基因的表达,而不考虑4acC的修饰(两者与4acC相比,H3K27me3与两者都相比,如图6c所示)。值得注意的是,在有或无H3K27me3的两组基因中,每组的4acC均与表达增加相关(两者与H3K27me3相比,4acC与两者均相比,如图6c所示),并且在无H3K27me3的基因中,效应更大(图6c)。
我们还研究了4acC对基因表达的影响,分别考虑具有或不具有活性组蛋白标记的基因。无论4acC修饰与否,h3k4me2标记基因的表达量均高于非h3k4me2修饰基因(图6d)。在未修饰H3K4me2的基因组中,带有4acC标记的基因的表达量明显高于未修饰的基因(图6d)。然而,4acC在组蛋白修饰标记活跃的一组基因中表现出明显的影响。在h3k4me2标记的基因组中,带有4acC的基因与没有4acC的基因表达相似(图6d),但在H3K14ac标记的基因组中,表达高于没有4acC的基因,而在H3K4me3、H3K36me3、H3K9ac和H3K9me3标记的其他四组基因中表达较低(补充图未展示)。因此,在特定的组蛋白修饰状态下,4acC与高表达相关,且其对组蛋白标记不活跃或抑制性基因的影响最为显著。
(7) 4acC与DNase I超敏感位点(DHs)和转录因子(TF)结合位点共定位
此外,我们研究了4acC与DHs之间的重叠,发现近50%的4acC峰区与DHs重叠(图7a),这表明相当一部分4acC修饰区域可能含有调控DNA元件。因此,我们使用MEME-ChIP对4acC峰值区域的共识基序进行无偏搜索。数十个基序显著富集,如CDYCDYCDYCDY (D代表A、G、T;Y代表C和T;E-value=5.3×10−152)和YCTCTCTYTCTYYYT (E-value=3.9×10−74),它们是许多类tf的已知或类似基元(图7b)。事实上,对这些tf(包括ERF3、ERF11、ERF115、BPC1、ANAC71、DREB2A、MYB63和RAP2-11)的DAP-seq数据的分析显示,它们与4acc修饰区域显著重叠(图7a)。典型场景如图7c所示。因此,4acC可能促进tffs的结合,调节基因表达。
结论:
综上所述,我们发现4acC是一种新的和丰富的植物基因组DNA修饰。在拟南芥中,4acC主要位于常染色质区蛋白质编码基因的TSSs周围,与基因表达水平呈正相关。我们观察到该标记与其他表观遗传标记在基因表达调控中的潜在相互作用。然而,还有几个问题需要研究,特别是乙酰转移酶介导4acC修饰,4acC在基因表达调控中的作用,以及与其他表观遗传标记的串柄。我们的发现扩展了调节基因表达的DNA修饰的目录。
参考文献:
Wang, S., Xie, H., Mao, F., Wang, H., Wang, S., Chen, Z., Zhang, Y., Xu, Z., Xing, J., Cui, Z., Gao, X., Jin, H., Hua, J., Xiong, B., & Wu, Y. (2022). N4-acetyldeoxycytosine DNA modification marks euchromatin regions in Arabidopsis thaliana. Genome biology, 23(1), 5. https://doi.org/10.1186/s13059-021-02578-7.