环状RNA(circRNA)是动植物中一类丰富且保守的RNA。最近的研究表明,circRNA可以通过充当非编码RNA或编码RNA发挥多种生物学作用。体外合成的circRNA可以不依赖于帽的方式进行翻译。但鉴定circRNA编码的蛋白质是困难的,主要是因为circRNA序列及其宿主基因的同源线性mRNA具有较大的重叠。
近期Nucleic Acids Research杂志在线发表了题名为:TransCirc: an interactive database for translatable circular RNAs based on multi-omics evidence的文章,该文章主要讲述了circRNA翻译预测和分析的数据库——TransCirc。TransCirc数据库整合了各种与翻译相关的证据,检索的结果能直观的呈现翻译产物的相关证据信息。数据共分析了328080种已知人类circRNA的翻译潜能,有蛋白质谱证据(MS)的circRNA有168个,核糖体印迹或多聚核糖体分析(RP/PP)的证据4284个circRNA,潜在翻译产物序列分析(SeqComp)的301100个circRNA。有IRES预测结果的314138个circRNA,有m6A修饰位点信息的39397个circRNA,有翻译起始位点信息(TIS)的9394个circRNA,有ORF信息的305016个circRNA。
1. 核糖体印迹与多聚核糖体分析证据
mRNA的翻译是由核糖体进行的,它可以在主动翻译的mRNA中形成多聚核糖体(Polysome)。因此,与核糖体/多核糖体的结合可以作为可翻译circRNA潜力的强有力的预测证据。数据库整合了已发表的核糖体印迹(Ribosome Profiling)分析数据和多聚核糖体分析(Polysome Profiling)数据,挖掘分析circRNA与核糖体的关联。
2. 翻译启动站点(TIS)
GTI-seq已实现了接近单核苷酸分辨率的翻译起始密码子的全景图,揭示了整个人类转录组中数千个TIS密码子的明确集合。数据库基于GTI-seq的TISdb数据用作支持circRNAs翻译的间接证据,这也与潜在的ORF相关。
3. IRES序列
由于circRNA是共价闭环分子,没有游离末端,因此circRNA的翻译必须使用一种非经典的启动机制,即不依赖5’-帽子的翻译启动。这种起始途径往往通过IRES(内部核糖体进入位点)驱动,IRES是具有特殊二级结构的短RNA片段。在病毒中发现并证明了大量的IRES元件,在一些特殊情况下,哺乳动物内源性的IRES元件也可以起始翻译。作者团队也曾针对circRNA中IRES元件进行了系统性的筛选验证。数据库也使用了所有可用的IRES信息作为支持circRNA翻译的证据。
4. m6A位点
N-6-甲基腺苷(m6A)是最常见的RNA修饰,存在于许多类型的编码和非编码RNA中。作者团队曾报道circRNA具有广泛的m6A修饰,并可以通过募集YTHDF3及相互作用的翻译起始因子(例如eIF4G2)起始circRNA翻译。数据库采用了REPIC数据库已发布的m6A修饰数据(由三种不同的工具识别),并将其比对到circRNA序列中。circRNA中已经过实验验证的m6A位点也整合到该数据库中。
5. ORF长度
潜在的开放阅读框(ORF)的长度是编码RNA与非编码RNA的共同预测指标。通常在非编码RNA中找不到长的ORF,数据库将ORF长度> 20aa作为circRNA编码肽的最低要求。值得注意的是,ORF长度是一个相对较弱的预测因子,因为最近发现许多小肽是由人类转录组中的“非编码” RNA编码的,而具有长ORF的circRNA更有可能成为编码RNA。
6. 翻译产物的序列组成
所有天然蛋白质的氨基酸(aa)序列仅占据可能序列空间的一小部分,主要是因为只有一小部分序列可以形成稳定的蛋白质。因此,具有“非天然”序列的蛋白质倾向于快速降解,并且与所有天然蛋白质的序列相似性可以作为强有力的预测指标,以鉴定随机氨基酸序列中的真实蛋白质。使用机器学习方法来预测天然蛋白给定序列的可能性,并应用该预测来对circRNA编码的给定ORF可以用作功能蛋白模板的可能性进行评分。
7. 质谱/蛋白质组学证据
质谱法是准确鉴定和表征蛋白质的重要方法。已经进行了数个大规模质谱实验来研究人类蛋白质组,但是即使考虑蛋白质的翻译后修饰,也只能可靠地将约50%的MS指纹图谱与人类mRNA编码的已知肽匹配成功。这表明,非典型mRNA编码了很大一部分“隐藏蛋白质组”,其中也包括了可能来自circRNA的编码产物。作者通过设计新的分析流程,从蛋白质谱数据中挖掘分析了可能由circRNA编码的多肽,并展示了所有原始质谱图,这些质谱图可支持circRNA编码的跨接口位点的肽段。circRNA特异性ORF