作为表观基因组学的一个重要层面,DNA 甲基化 (DNAm) 为转录调控和生物学过程提供了重要的见解,包括基因组印记、早期胚胎发育和癌症进展。尽管批量全基因组亚硫酸氢盐测序 (WGBS) 在绘制跨类型组织的DNA甲基化组图谱方面做出了很大努力,但在解释细胞异质性和了解特定生物学状态下的发展动态方面仍然存在一定的不足。目前,测序方法的进步使得能够开发出以单细胞分辨率分析DNA甲基化的策略,包括 scRRBS和 scBS-seq,以及多组学方法,如 scTrioSeq2和scM&T-seq,极大地促进了细胞表观遗传异质性的探索。、
然而,海量实验和数据集的不断积累,对单细胞DNA甲基化数据的整合和复用提出了很大的挑战。此外,如何检索如此庞大的全基因组甲基化数据是互联网带宽限制的瓶颈之一。到目前为止,系统设计的单细胞 DNA 甲基化数据库仍然严重短缺。例如,唯一的单细胞甲基化数据库 HeteroMeth,仅存储 150 个 DNA 甲基化异质性数据,而不是全基因组甲基化谱。
中国科学院团队构建了一个单细胞全基因组 DNA 甲基化图谱数据库:scMethBank(https://ngdc.cncb.ac.cn/methbank/scm/)。这是一个综合性和策划的数据库,它集成了来自公开可用数据集的单细胞甲基化数据和元数据。scMethBank 收集了人类和小鼠单细胞水平的全基因组甲基化图谱。它提供跨多种生物条件的全基因组单细胞 DNA 甲基化谱,包括细胞类型、发育阶段、疾病状态和治疗方法。
scMethBank 提供来自人类和小鼠的8328个样本的全基因组单细胞DNA 甲基化谱和精选元数据,涵盖15个项目、29种细胞类型和两种疾病状况。数据库中记录了胚胎细胞(11.0%)、癌细胞(14.4%)、生殖细胞(10.7%)、神经细胞(54.5%)、干细胞(7.9%)和其他细胞类型(2.3%)。涉及的生物学背景包括早期胚胎发育、癌症进展、细胞分化和衰老。
主页通过树形结构显示存储在 scMethBank 中的细胞类型信息,这些信息链接到相应的感兴趣样本。同时,主页支持数据集、组织、细胞类型、治疗方法、疾病等多项检索功能。此外,用户可以通过四个特色功能模块浏览整个数据库:浏览、可视化、工具和下载。
scMethbank 提供浏览界面,用户可以浏览并执行一些扩展操作,例如搜索、过滤和下载。此外,浏览模块还存储样本和相应数据集的信息,以及基因的甲基化水平和不同细胞类型之间的差异甲基化区域(DMR)。在数据集浏览模块中,包括各种相关数据集信息,例如登录号、图书馆协议、细胞类型及其计数、技术平台等。数据库中记录的每个样本的详细信息显示在样本浏览模块中。每个样本都分配了13个手动选择的属性,因此用户可以通过相应的关键字来缩小查询结果,包括细胞类型、发育阶段、治疗、疾病、性别和年龄。
虽然一个区域内的平均甲基化水平在一定程度上反映了异质人群的基本特征,但它也会掩盖甲基化模式的复杂性。因此,释放单细胞甲基化数据真正价值的方法是使全基因组数据在数据库中以单碱基精度可搜索和可视化。为了正确表征甲基化模式的异质性,scMethBank 建立了大量的 Terabase 级存储的单细胞全基因组甲基化数据池,允许用户从8000多个不同的样本中以单碱基精度检索甲基化谱。此外,scMethBank 提供了两种交互方式可视化感兴趣样本的 CpG 甲基化模式。首先,热图模式图使用户可以通过输入基因名称或指定基因组位置来浏览局部区域相对更广泛的甲基化模式。热图提供了不同样品甲基化状态的直观比较。其次,对于某些特别关注的位点的模式,还允许使用更精细的棒棒糖样图来帮助用户更精确地扫描和解释单细胞甲基化谱。此外,来自不同数据集的所有单细胞样本的 t-SNE 分析结果显示在细胞簇模块中点颜色代表不同的细胞组。