[发明专利]一种基于端到端模型的蛋白质序列特征信息学习方法在审
| 申请号: | 202210389236.3 | 申请日: | 2022-04-13 |
| 公开(公告)号: | CN115035956A | 公开(公告)日: | 2022-09-09 |
| 发明(设计)人: | 侯艳 | 申请(专利权)人: | 北京大学 |
| 主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B25/00;G06N3/04 |
| 代理公司: | 北京盛凡佳华专利代理事务所(普通合伙) 11947 | 代理人: | 马红蕾 |
| 地址: | 100080*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 端到端 模型 蛋白质 序列 特征 信息 学习方法 | ||
本发明涉及DTI预测模型领域,尤其为一种基于端到端模型的蛋白质序列特征信息学习方法。包括AttBiLSTMG模型,AttBiLSTMG为端到端模型,AttBiLSTMG模型采用双向LSTM,通过对较长蛋白质序列正向和反向学习得到较为全面的特征信息,AttBiLSTMG使用注意力机制得到与药物分子作用关系较强的氨基酸特征信息,为准确学习到药物分子与靶点蛋白特征的相互作用关系提供有用的特征信息,忽略无用氨基酸特征信息。本发明提供了端到端模型AttBiLSTMG直接对药物分子SMILES和蛋白序列字符串进行特征学习,不需要特征转换,以此预测药物靶点相互用作用,该模型基于注意力机制和双向LSTM对蛋白序列字符串进行特征提取,使用图神经网络GIN对药物分子图结构提取特征的一种基于端到端模型的蛋白质序列特征信息学习方法。
技术领域
本发明涉及DTI预测模型领域,尤其为一种基于端到端模型的蛋白质序列特征信息学习方法。
背景技术
端到端模型是指模型在训练过程中,从输入端到输出端会得到一个预测结果,与真实结果相比较会得到一个误差,这个误差会在模型中的每一层传递,每一层的表示都会根据这个误差来做调整,直到模型收敛或达到预期的效果才结束,中间所有的操作都包含在模型内部,不再分成多个模块处理,由原始数据输入,到结果输出,从输入端到输出端,中间的网络结构自成一体,端到端模型仅使用一个模型、一个目标函数,规避了多模块模型固有的缺陷。此外端到端模型还减少了工程的复杂度。
发明内容
本发明提供了端到端模型AttBiLSTMG直接对药物分子SMILES和蛋白序列字符串进行特征学习,不需要特征转换,以此预测药物靶点相互用作用,该模型基于注意力机制和双向LSTM 对蛋白序列字符串进行特征提取,使用图神经网络GIN对药物分子图结构提取特征的一种基于端到端模型的蛋白质序列特征信息学习方法。
本发明提供的技术方案为一种基于端到端模型的蛋白质序列特征信息学习方法,其特征在于:包括AttBiLSTMG模型,AttBiLSTMG为端到端模型,AttBiLSTMG模型采用双向LSTM,通过对较长蛋白质序列正向和反向学习得到较为全面的特征信息,AttBiLSTMG使用注意力机制得到与药物分子作用关系较强的氨基酸特征信息,为准确学习到药物分子与靶点蛋白特征的相互作用关系提供有用的特征信息,忽略无用的氨基酸特征信息。
GIN模型是新提出的图网络方法,可以在图神经网络之间实现最大判别能力,GIN使用多层感知器(Multi-Layer Perceptron,MLP)更新节点特征:
其中ε是可学习参数,x是节点特征向量,B(i)是与节点i相邻的节点集合。
所述LSTM为长短期记忆模型。
注意力机制借鉴了人类的注意力思维方式,视觉注意力机制是人类视觉所特有的大脑信号处理机制,人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是所说的注意力焦点,然后对这一区域投入更多的注意力资源,以获取更多所需要关注目标的细节信息,从而抑制其它无用信息。人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性,在预测DTI时,蛋白质文本序列中每个字符代表一个氨基酸,由于每个蛋白质由多个氨基酸组成,因此通过可以注意力机制赋予每个氨基酸不同的权重,若某个氨基酸与药物分子中的某个原子具有重要作用,则赋予其较大的权重,否则赋予其较小的权重。
本发明的有益效果:
本发明提供了端到端模型AttBiLSTMG直接对药物分子SMILES和蛋白序列字符串进行特征学习,不需要特征转换,以此预测药物靶点相互用作用,该模型基于注意力机制和双向LSTM 对蛋白序列字符串进行特征提取,使用图神经网络GIN对药物分子图结构提取特征的一种基于端到端模型的蛋白质序列特征信息学习方法。
附图说明
图1为本发明一种基于端到端模型的蛋白质序列特征信息学习方法的AttBiLSTMG模型结构示意图
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210389236.3/2.html,转载请声明来源钻瓜专利网。





