人类基因组和其他哺乳动物基因组被转录为编码数千个短(sRNA)和长非编码RNA(lncRNA),它们与各种生理和病理过程有关,例如肿瘤发生,发育,印记,细胞凋亡和细胞分化。尽管近年来已经发表了数以千计的ncRNA研究,但只有一小部分ncRNA得到了很好的功能研究。鉴于在各种物种中发现了数千种ncRNA,近年来已经开发了许多数据库来帮助研究人员了解它们的多样性和功能。包括miRBase,一个已发表的miRNA序列的参考数据库和GENCODE,一个lncRNA的参考数据库。此外,已经开发了一系列数据库来探索ncRNA表达模式,调控网络和生物学功能,例如RNAcentral,LNCipedia,LncRNAdb,ChIPBase,NONCODE,LncRNADisease,starBase和circBase。然而,这些数据库侧重于特定的ncRNA家族或ncRNA的特定特征。非常需要整合项目产生的深度测序数据,以探索各种ncRNA在生理和病理过程中的动态表达,临床意义和功能。
中山大学团队发布了深度测序数据的表达图谱和ncRNA的交互式分析数据库——deepBase v3.0 (http://rna.sysu.edu.cn/deepbase3/index.htmlSPASCER),该数据相关文章发表在Nucleic Acids Res期刊(IF:19.160)。
deepBase v3.0首次通过挖掘TCGA的小RNA深度测序数据构建了tRFs和snoRNA的表达谱。deepBase v3.0还通过整合来自大型数据库(包括ENCODE、TCGA、ICGC和GTEx项目)的测序数据,为正常组织和癌症组织中的lncRNA和其他ncRNA提供了最全面的表达谱。通过分析来自ERCC的测序数据,我们解码了miRNA,lncRNA和circRNA的细胞外模式。此外,deepBase v3.0 提供了多种新的 Web 模块和图形可视化,以促进对各种类型ncRNA的复杂表达、功能和进化的分析和探索。deepBase v3.0整合来自67个正常组织和约620个癌症组织的约80 50个数据,提供了最全面的小RNA和lncRNA表达图谱。对各种ncRNA的细胞外模式进行了分析,以探索其在发现无创生物标志物中的应用。此外,我们通过分析>45 000份癌症样本数据和相应的临床信息,构建了tRNA衍生RNA片段(tRFs)、miRNA、snoRNA和lncRNA的生存图谱。
基于网络的sRNA、lncRNA、circRNA和tRF的探索
deepBase提供多种类型RNA的全基因组鉴定,从lncRNA到不同类型的小RNA。在浏览部分,有四个网页供用户浏览带有注释和表达谱的不同种类的RNA。lncRNA、小 RNA 和 circRNA 的浏览页面显示来自不同实验的已识别和重新注释的 RNA,以及它们的详细信息,包括基因组位点、长度、类型、总表达和表达的样品数。用户可以按“样品”列对数据表进行排序,以确定RNA表达的通用性。一些RNA在所有样品中广泛表达,而有些仅在少数样品中表达。通过按“表达”列对数据表进行排序,用户可以获得RNA的表达条件。在lncRNA和smallRNA页面上,我们提供了一个指向新页面的出站链接,该页面显示了不同样品或组织中的详细表达。用户只需单击基因名称即可获得详细信息。
各种ncRNA的表达谱
ncRNA表达的定量是RNA研究的最重要特征之一,在某些阶段,组织或细胞中的特异性表达可能意味着ncRNA在生物过程中的功能。表达部分分为两部分:正常组织和癌症。在正常组织部分,deepBase提供了所有mRNA,lncRNA,miRNA,circRNA和小ncRNA的表达谱。deepBase v3.0 以热图的形式显示 RNA 的标准化表达值(通过 z 分数或平均值归一化),让用户清楚地了解不同组织或样品中的相对表达。用户可以点击基因名称,跳转到详细表达页面。在癌症部分,对来自不同癌症类型的样本应用相同的归一化,以显示癌症之间的表达差异。TCGA和ICGC数据分别显示。癌症小RNA页面数据是RNA-seq数据,而miRNA页面数据是sRNA-seq数据,两类数据并行变化。在对TCGAsRNA-seq数据进行重新分析的基础上,deepBase v3.0还显示了snoRNA在各种癌症类型中的表达谱。
外泌体的表达谱
细胞外RNA(exRNA)是一种存在于各种生物体液中的RNA分子。来自异质群体的ExRNA,包括小RNA,circRNA,lncRNA和mRNA。它们以游离形式存在或与蛋白质结合形成复合物,参与各种细胞间通讯,并在癌症和其他疾病中发挥重要作用。分析了从ERCC数据库下载的2500多个样本数据,以构建不同外泌体的表达图谱,并提供人外泌体RNA表达的概述。用户可以直接了解不同生物流体中的 exRNA 表达以及 exRNA 的表达特异性。
预后分析
通过RNA-seq和sRNA-seq测序数据,我们还收集了TCGA和ICGC的deepBase v3.0临床数据。结合表达数据和临床数据,我们将单变量Cox回归应用于所有差异表达基因(|log FC| ≥ 1,P值<0.05)。deepBase 在数据表中显示所有生存对数排名 P 值。不显示未在特定癌症类型中表达或与生存无关的基因。为通过对数秩P值阈值0.05的生存相关RNA提供了KM生存曲线图。
不同种类的ncRNA的交互式分析
deepBase提供了多种分析界面,供用户深入了解不同特征中不同种类的RNA。基因搜索页面显示了单个RNA在不同类型癌症中的详细表达。本页由四个部分组成。左侧搜索栏包括输入框和参考线。在右侧部分中,数据表显示表达式和相关信息,箱线图显示一种癌症类型的特定表达。用户可以单击数据表中的癌症名称进行更改。条形图显示了癌症范围的表达。该页面旨在让用户直接快速地访问特定的RNA信息。表达页面显示单一癌症类型中不同类型RNA的表达矩阵,用户可以设置P值和FDR截止值,获得自定义数据表以供进一步检查。搜索和表达页面为用户提供了从癌症相关RNA研究中获取主要信息的快速简便方法。