TransCirc：可翻译circRNA数据库

栏目：最新研究动态发布时间：2021-05-19

最近的研究表明，circRNA可以通过充当非编码RNA或编码RNA发挥多种生物学作用。体外合成的circRNA可以不依赖于帽的方式进行翻译。

环状RNA（circRNA）是动植物中一类丰富且保守的RNA。最近的研究表明，circRNA可以通过充当非编码RNA或编码RNA发挥多种生物学作用。体外合成的circRNA可以不依赖于帽的方式进行翻译。但鉴定circRNA编码的蛋白质是困难的，主要是因为circRNA序列及其宿主基因的同源线性mRNA具有较大的重叠。

近期Nucleic Acids Research杂志在线发表了题名为：TransCirc: an interactive database for translatable circular RNAs based on multi-omics evidence的文章，该文章主要讲述了circRNA翻译预测和分析的数据库——TransCirc。TransCirc数据库整合了各种与翻译相关的证据，检索的结果能直观的呈现翻译产物的相关证据信息。数据共分析了328080种已知人类circRNA的翻译潜能，有蛋白质谱证据（MS）的circRNA有168个，核糖体印迹或多聚核糖体分析（RP/PP）的证据4284个circRNA，潜在翻译产物序列分析（SeqComp）的301100个circRNA。有IRES预测结果的314138个circRNA，有m6A修饰位点信息的39397个circRNA，有翻译起始位点信息（TIS）的9394个circRNA，有ORF信息的305016个circRNA。

1. 核糖体印迹与多聚核糖体分析证据

mRNA的翻译是由核糖体进行的，它可以在主动翻译的mRNA中形成多聚核糖体（Polysome）。因此，与核糖体/多核糖体的结合可以作为可翻译circRNA潜力的强有力的预测证据。数据库整合了已发表的核糖体印迹（Ribosome Profiling）分析数据和多聚核糖体分析（Polysome Profiling）数据，挖掘分析circRNA与核糖体的关联。

2. 翻译启动站点（TIS）

GTI-seq已实现了接近单核苷酸分辨率的翻译起始密码子的全景图，揭示了整个人类转录组中数千个TIS密码子的明确集合。数据库基于GTI-seq的TISdb数据用作支持circRNAs翻译的间接证据，这也与潜在的ORF相关。

3. IRES序列

由于circRNA是共价闭环分子，没有游离末端，因此circRNA的翻译必须使用一种非经典的启动机制，即不依赖5’-帽子的翻译启动。这种起始途径往往通过IRES（内部核糖体进入位点）驱动，IRES是具有特殊二级结构的短RNA片段。在病毒中发现并证明了大量的IRES元件，在一些特殊情况下，哺乳动物内源性的IRES元件也可以起始翻译。作者团队也曾针对circRNA中IRES元件进行了系统性的筛选验证。数据库也使用了所有可用的IRES信息作为支持circRNA翻译的证据。

4. m6A位点

N-6-甲基腺苷（m6A）是最常见的RNA修饰，存在于许多类型的编码和非编码RNA中。作者团队曾报道circRNA具有广泛的m6A修饰，并可以通过募集YTHDF3及相互作用的翻译起始因子（例如eIF4G2）起始circRNA翻译。数据库采用了REPIC数据库已发布的m6A修饰数据（由三种不同的工具识别），并将其比对到circRNA序列中。circRNA中已经过实验验证的m6A位点也整合到该数据库中。

5. ORF长度

潜在的开放阅读框（ORF）的长度是编码RNA与非编码RNA的共同预测指标。通常在非编码RNA中找不到长的ORF，数据库将ORF长度> 20aa作为circRNA编码肽的最低要求。值得注意的是，ORF长度是一个相对较弱的预测因子，因为最近发现许多小肽是由人类转录组中的“非编码” RNA编码的，而具有长ORF的circRNA更有可能成为编码RNA。

6. 翻译产物的序列组成

所有天然蛋白质的氨基酸（aa）序列仅占据可能序列空间的一小部分，主要是因为只有一小部分序列可以形成稳定的蛋白质。因此，具有“非天然”序列的蛋白质倾向于快速降解，并且与所有天然蛋白质的序列相似性可以作为强有力的预测指标，以鉴定随机氨基酸序列中的真实蛋白质。使用机器学习方法来预测天然蛋白给定序列的可能性，并应用该预测来对circRNA编码的给定ORF可以用作功能蛋白模板的可能性进行评分。

7. 质谱/蛋白质组学证据

质谱法是准确鉴定和表征蛋白质的重要方法。已经进行了数个大规模质谱实验来研究人类蛋白质组，但是即使考虑蛋白质的翻译后修饰，也只能可靠地将约50％的MS指纹图谱与人类mRNA编码的已知肽匹配成功。这表明，非典型mRNA编码了很大一部分“隐藏蛋白质组”，其中也包括了可能来自circRNA的编码产物。作者通过设计新的分析流程，从蛋白质谱数据中挖掘分析了可能由circRNA编码的多肽，并展示了所有原始质谱图，这些质谱图可支持circRNA编码的跨接口位点的肽段。circRNA特异性ORF

上一篇： RNA甲基化修饰（m6A）研究

下一篇：低氧导致肝细胞癌进展的新连接体——CFL1蛋白

TOP

谷小姐

戴小姐

4006966643

daihp@yingbio.com