[发明专利]一种基于深度学习的RBP结合位点预测算法有效

专利信息
申请号: 202110229810.4 申请日: 2021-03-02
公开(公告)号: CN113035280B 公开(公告)日: 2022-03-11
发明(设计)人: 朱敏;闫建荣;明章强;王心翌 申请(专利权)人: 四川大学
主分类号: G16B40/00 分类号: G16B40/00;G16B20/30;G16B5/00;G06N3/08;G06N3/04
代理公司: 成都禾创知家知识产权代理有限公司 51284 代理人: 刘凯
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 rbp 结合 预测 算法
【说明书】:

发明公开了一种基于深度学习的RBP结合位点预测算法,首先从RNA序列信息出发,增加二级结构特征作为输入;通过基于强化学习的生成对抗网络,对RBP进行数据增强,目的是通过增强训练集规模来提高预测模型的预测能力;提出卷积自编码器作为预测模型,预训练过程包括编码器和解码器的训练,提取已训练好的编码器微调;能够预测未知结合位点的RNA序列;通过卷积自编码器的卷积核,能够提取与RNA发生结合的序列motif与结构motif,探究不同RBP的序列和结构特异性;对于每种RBP数据都训练一个对应的预测模型;对于一个待预测的RNA序列,首先编码序列,然后将编码信息输入到已训练好的各个预测模型中,最终的结果即为特异RNA与各个RBP对应的结合概率。

技术领域

本发明涉及RNA-蛋白质相互作用与深度学习领域,具体涉及一种基于深度学习的RBP结合位点预测算法。

背景技术

RNA结合蛋白(RBP)是普遍存在的能与RNA结合的蛋白质的总称,RBP通过与RNA特异性结合,直接或间接地调控RNA的功能,如介导RNA的成熟、转运、定位和翻译等。RBP参与了许多生命进程,它们的数量占据了真核蛋白质组的5-10%。在生物体中大部分的RNA发挥作用都要与蛋白质相结合,RBP与特异RNA结合的过程又称为RNA-蛋白质相互作用,此时存在结合位点。鉴定RBP在特异性RNA上的结合位点是RNA-蛋白质相互作用的典型功能表现形式。在物理度量空间中,蛋白质中特定氨基酸残基和RNA中特定碱基之间的最小距离小于时,蛋白质与RNA发生结合。蛋白质与RNA发生结合的一小段序列被称为RNA的motif(模序),motif是一组RNA序列共有的短序列模式,此处也指RNA的特征,具体表现形式是四种碱基(或者结构注释)分别出现在短序列各个位置上的概率,一般长度为7bp。

蛋白质和RNA都是人体中不可或缺的生物大分子,二者结合形成的核糖核蛋白复合体已被确定在许多重要的生物功能中都起着重要作用。如何利用计算方法提高其预测精度成为当今国内外研究的热点,现阶段研究中,由于对蛋白质与RNA的结合机制以及结合位置尚未完全了解,传统的机器学习方法特征提取的困难,目前还未出现一种公认的特征提取方法。

因此,研究者们纷纷转向研究深度学习方法。一方面,大多数深度学习方法往往仅从RNA序列出发,忽略了对应的RNA结构信息,而研究表明RNA结构的修饰及其空间结构的改变都可以导致与其结合的RBP发生变化,产生不同的生物学功能,因此,蛋白质与RNA的结合对特定RNA的结构具有一定的倾向性,引入RNA二级结构预测具有一定的理论意义。另一方面,多数方法仅考虑结合位点是否存在,忽略了结合发生的序列特异性,研究表明RNA结合蛋白的序列特异性对于开发生物系统中调控过程的模型以及确定病因疾病变体至关重要,因此,探明结合位点的序列特异性对于了解结合机制必不可少。另一方面,由于某些RBP数据规模较小,模型预测能力始终无法提升,因此,对于离散RNA数据,如何提升数据量较少的模型的预测能力尤为重要。最后,大多数模型训练时参数随机初始化,容易造成局部最优,因此如何避免局部最优也是提高结合位点预测的关键点。

研究发现,RBP与许多重要的生物学过程密切相关,例如基因的转录后调控、基因剪接和定位等。RBP中Ago蛋白可以与miRNA和mRNA靶标形成复合物,miRNA充当靶标mRNA的阻遏物。此外,RBP的失调与突变可能导致多种疾病,某些RBP的缺失会破坏转录后机制引发糖尿病。RBP中FUS蛋白和TDP-43蛋白的突变与肌萎缩性侧索硬化症密切相关。通过研究RBP结合特异RNA,可以揭示RBP在疾病背后的调控机制。更进一步地,想要探索某些RNA的功能,也可以通过与之相关联的蛋白质进行了解。因此,研究蛋白质和RNA之间的相互作用已成为后基因组时代的一个有吸引力的主题。

发明内容

针对上述问题,本发明的目的在于针对现有技术中的预测算法精度不高的现状提供一种基于深度学习的RBP结合位点预测算法,将深度学习技术与特异RNA的领域知识相融合,鉴定特异RNA上的RBP结合位点,也对其中的部分问题提出了有效解决方案,例如一些RBP数据规模小、预测模型过拟合与局部最优、以及无法提取序列与结构特异性等。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110229810.4/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top