长链非编码 RNA (lncRNA) 可以顺式或反式发挥多种功能,包括调节基因转录和 RNA 剪接、调节 RNA 和蛋白质的活性或丰度以及组织核结构域。它们广泛参与细胞命运编程/重编程、分化、发育,尤其是与人类疾病相关。尽管近年来高通量测序技术的快速发展已经鉴定了数十万种人类 lncRNA,但其中只有一小部分得到了很好的表征。
今天我们来讲一个关于lncRNA的数据——LncExpDB ( https://bigd.big.ac.cn/lncexpdb),该数据库由中国国家生物信息中心和中国科学院北京基因组研究所团队搭建,数据库相关文章于2020年10月12日以“LncExpDB: an expression database of human long non-coding RNAs”为题在线发表于Nucleic Acids Research杂志(IF=11.501)。
LncExpDB提供101293个人类lncRNA基因(对应于331244个转录本)全面且高质量的集合。它包含了这些lncRNA在337个生物学条件下的丰富表达谱,这些条件属于九个重要的生物学背景,涉及正常组织/细胞系、癌细胞系、亚细胞定位、外泌体、细胞分化、植入前胚胎、器官发育、昼夜节律和病毒感染. 此外,LncExpDB 识别了25191个特征lncRNA 基因,并表征了24508个lncRNA 基因和17345个mRNA基因之间的28443865个共表达相互作用。
基于跨多个生物环境的综合表达谱,LncExpDB 具有增值管理和分析功能,可提供可靠转录的 lncRNA 基因。因此,我们发现 92 016 个 lncRNA 基因(90.8%)得到可靠转录证据的支持(表达值阈值为 1 TPM),在九个生物学背景中分布不均。在可靠转录的基因中,大多数 (82.6%) 在至少两种生物环境中表达,3318 个 lncRNAs (3.6%) 在所有 9 种环境中表达。
LncExpDB 表征了在特定细胞系/组织中特异性表达、在癌症或病毒感染背景下差异表达、在特定细胞器中富集、在细胞分化或胚胎/器官发育过程中动态表达或随昼夜节律周期性表达的特征 lncRNA 基因韵律。基于大量RNA-seq数据,共鉴定出25191个特征lncRNA,其中器官发育7922个,正常组织/细胞系7498个,亚细胞定位5292个,植入前胚胎4343个,癌细胞系2907个,1740个昼夜节律,外泌体中为 1538,细胞分化中为 1232,病毒感染中为 985。
为了促进对特征 lncRNA 分子机制的深入研究,LncExpDB 通过共表达网络预测 lncRNA-mRNA 相互作用。LncExpDB 总共包含 28 443 865 个预测的 lncRNA-mRNA 相互作用;这些相互作用中的大多数 (96.4%) 存在于一种生物环境中,并且在五种环境中发现了 12 种相互作用。
LncExpDB 的中心实体是 lncRNA 基因,每个 lncRNA 基因都有一个对应的页面,由两个主要部分组成,即基本信息(例如基因符号、基因组上下文、长度、外显子数、分类和对应的转录本信息)和表达谱。对于每个 lncRNA,LncExpDB 在所有收集的条件下分析其基因表达谱,并以交互方式可视化其表达谱。它以结构化的方式组织所有相关数据,以促进基于基因、数据集和基于上下文的数据浏览/搜索。它可以在一页中可视化特定 lncRNA 的各种表达谱,促进对特征基因及其相关共表达网络的探索,并提供有用的功能来捕获不同生物条件下的表达情况。