[发明专利]基于双向注意力机制的RNA与蛋白质绑定偏好预测方法和系统在审
申请号: | 202110265414.7 | 申请日: | 2021-03-11 |
公开(公告)号: | CN113053462A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 黄德双;申圳 | 申请(专利权)人: | 同济大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B15/30;G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 王颖 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双向 注意力 机制 rna 蛋白质 绑定 偏好 预测 方法 系统 | ||
本发明公开了基于双向注意力机制的RNA与蛋白质绑定偏好预测方法和系统,通过利用注意力机制和双向LSTM的组合对潜在基元位点的上下文进行特征分析,进而完成RNA基元挖掘任务,针对RNA序列中弱监督信息使用问题,在模型中融入了多示例机制。针对RNA序列不同位点重要程度差异问题,在模型中使用注意力机制来评估不同位点的重要性,本发明提供了基于双向注意力机制的RNA与蛋白质绑定偏好预测方法和系统,步骤简单,实用性强,系统性能稳定且预测效果准确性高,为RNA‑蛋白质绑定预测提供了技术依据。
技术领域
本发明属于RNA与蛋白质绑定预测技术领域,涉及基于双向注意力机制的RNA与蛋白质绑定偏好预测方法和系统。
背景技术
注意力机制是一种起源于人类视觉系统中的概念,是人类视觉系统所特有的一种信号处理机制。人类通过眼睛观察事物的时候首先会快速对当前已获取的图像进行一次全局扫描,对图像中各区域的重要性进行分析,从中发现需要我们关注的目标区域。然后会在目标区域投入更多的注意力以获取与目标区域有关的更为详细的特征信息。通过注意力机制的使用,人类能够利用有限的资源从大量冗余信息中快速筛选出重要信息,大大提高了人类视觉系统中视觉信息处理的效率和准确性。注意力机制的有效性引起了研究人员的注意,开发了多种注意力机制的算法,将算法与深度学习模型融合用于多种海量数据分析任务,例如自然语言处理、计算机视觉、语音识别等,注意力机制在这些任务中的成功应用使其成为深度学习模型中关键技术之一。
基因表达过程中翻译阶段的任务是利用信使RNA中存储的编码信息合成多种功能特异的蛋白质。翻译阶段的调控与转录阶段的调控类似,也是通过RNA序列中特定位点和具有特殊功能的蛋白质绑定来实现的,我们将RNA序列中这些能够和蛋白质绑定的位点称为RNA-蛋白质绑定位点或RNA基元。研究表明RNA与蛋白质的绑定与靶基因表达调控、信号传导活性调节、复杂疾病进展等密切相关,因此研究人员开发了SELEX、SEQRS、RIP-chip、CLIP-seq、PAR CLIP、iCLIP等高通量测序技术,在体内和体外鉴别RNA与蛋白质的绑定。这些技术的出现为RNA与蛋白质绑定预测做出了巨大的贡献,帮助研究人员进一步加深对基因表达过程翻译阶段调控机制的理解。不断发展的高通量测序技术为研究人员提供了大量和RNA与蛋白质绑定相关的实验数据,使用人工从这些数据中鉴别RNA与蛋白质绑定位点需要耗费大量的资源。为了提高工作效率,研究人员尝试开发基于机器学习方法的RNA基元识别模型,通过对这些数据的分析学习来预测RNA基元位点。传统计算模型的出现为RNA基元相关科研工作提供了极大的便利,但在面临海量高复杂数据时的性能确无法令人满意。鉴于深度学习在自然语言处理、计算机视觉等领域表现出的优异的海量数据处理分析能力,研究人员根据基因组序列数据的特点对现有的深度学习模型进行修改,提出了DeepBind、DeepSea、DanQ等能够进行基因组序列数据分析的深度学习模型。此外,也有部分学者对RNA的结构特性在RNA与蛋白质绑定中的作用进行了深入研究,提出了一些基于RNA结构数据的计算方法。鉴于RNA序列中部分区域的特殊结构能够影响RNA与蛋白质的绑定,研究人员尝试在原有模型中加入结构数据作为辅助信息并取得了良好的预测效果。与图像中可能存在的弱监督信息类似,在RNA-蛋白质绑定过程中同一种特殊功能蛋白质在RNA序列中可能存在多个绑定位点,当前的算法在计算过程中并未考虑这种特性。此外,RNA序列中只有部分位点能与具有调控功能的蛋白质绑定,这些绑定位点的上下游也存在着一些短序列能够影响RNA与调控蛋白质的绑定。与其它位点相比,这些功能位点在RNA翻译调控网络分析和RNA与蛋白质绑定中发挥十分重要的作用,也就是说这些功能位点的重要程度要高于RNA序列中其它位点。然而,现有的算法对RNA基元位点及其邻域在RNA-蛋白质绑定过程中重要程度不同的这一特点也缺乏考虑。
发明内容
为解决上述问题,本发明提出了一种基于层次LSTM和注意力机制神经网络模型用于预测RNA与蛋白质绑定偏好(HLARPBP)的方法。针对RNA序列中弱监督信息使用问题,在模型中融入了多示例机制。针对RNA序列不同位点重要程度差异问题,在模型中使用注意力机制来评估不同位点的重要性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110265414.7/2.html,转载请声明来源钻瓜专利网。