大约 1% 的人类基因组能够折叠成 G 四链体 (G quadruplexes,G4s)——在富含 G 的基序上形成的非经典链特异性 DNA 结构。G4 的热稳定性不同,这可能会影响它们的功能。然而,G4s 也可能阻碍复制、转录和翻译,并可能增加基因组的不稳定性和突变率。因此,根据其基因组位置、热稳定性和功能性,G4 基因座可能会在不同的选择压力下进化,而这一点从未被研究过。
一、基因组中 G4 基因座的密度不均匀
与全基因组平均值相比,CpG 岛、上游区域和转录链的 G4 密度的倍数差异特别高:分别为 12.3、4.98 和 4.11。相比之下,内含子的非转录和转录链、非转录外显子链和 3' UTR 的非转录链具有 G4密度接近全基因组平均值;校正 G 含量总体趋势不变,复制起点和增强子具有特别高的 G4 密度:分别比全基因组平均值高 6.88 倍和 3.03 倍。
二、G4 稳定性在基因区和非基因功能区之间存在差异
根据稳定性得分将G4基因座分为2组,高于19分的为“稳定G4基因座”(342778个),低于19分的为“不稳定G4基因座”(327298个),绘制稳定性得分分布图:
三、G4功能受到不同基因区域的限制
HKT检验显示,G4 基因座的进化取决于它们位于哪个基因组件内。 G4基因座在上游、下游基因区域、5' UTR、3' UTR的优势比显著大于1。位于增强子、复制起点以及在TAD边界区域的G4 基因座优势比都很高,这一发现表明这三种区域的G4基因座是有功能的。
这项工作表明, G4 的覆盖率、密度、预测稳定性和选择压力取决于它们所在的基因成分和非基因功能区域。自然选择在基因组的某些功能区域中保持了高密度的 G4 位点和高稳定性的 G4 结构,以及在其他功能区中保持低密度和低稳定性。每个特定区域组的情况可能取决于维持功能性 G4 的选择压力与容纳此类结构的成本之间的平衡。