[发明专利]用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质在审
申请号: | 202111536668.4 | 申请日: | 2021-12-15 |
公开(公告)号: | CN114388064A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 胡奕绅;殷鹏;胡帆 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B20/00;G16B30/00;G16B5/00 |
代理公司: | 深圳市科进知识产权代理事务所(普通合伙) 44316 | 代理人: | 刘建伟 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 蛋白质 表征 学习 多模态 信息 融合 方法 系统 终端 存储 介质 | ||
本申请提供的用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质,利用早期提取、中期融合、后期预测的策略,让各个单模态的模型能够充分提取各自模态的高级语义信息之后再进行融合,后期再通过前馈神经网络去做任务的预测;同时,提出一个多模态融合的模块,能够在中期融合的时候,对每一层网络的不同模态信息进行细粒度的交互,更好地将多模态进行融合并传递下去;在后期预测阶段特征提取器的最后一层,将融合的多模态embedding和之前的单模态embedding拼接在一起作为蛋白质本身的表示,这样做可以最大程度保留单模态原有的信息。
技术领域
本申请属于医学数据处理技术领域,具体涉及一种用于蛋白质表征学习的多模态信息融合方法、系统、终端及存储介质。
背景技术
蛋白质的表征学习是生物信息领域一个非常重要的研究课题,它对于预测蛋白与蛋白的互作、蛋白与药物的互作、蛋白与基因的互作等都起到十分关键的作用。一个好的数据表征应该能多方位覆盖物体本身的信息,使下游任务的推理过程有更多可用的特征支撑。
在蛋白质的计算研究中,需要将蛋白质转化为计算机能够处理的数据,而原始数据在输入模型之前,需要进行特征的提取,这个过程称为表征学习,一个好的表征学习对于下游任务的性能提升具有重大帮助。对于蛋白质的表征学习可以分为单模态的表征和多模态的表征。
在单模态上,主要是分别针对序列和结构的特征进行学习。蛋白质的序列类似于文本序列,可以借鉴NLP领域的技术去建模。在过去,有研究利用CNN对蛋白质序列进行一维卷积,提取蛋白质的序列特征后做后续的任务;也有研究用到了在时序的数据上见长的RNN模型,同样取得了不错的效果。最近,不少人尝试了在NLP和CV领域取得突破性进展的Transformer,对大规模的蛋白质序列做预训练,在下游任务中取得了更好的结果。与序列的模态相对,蛋白质的结构模态同样对理解蛋白质本身至关重要。针对蛋白质结构的建模研究相比于序列要少一些,有研究将3D蛋白质结构转为图像,然后利用CNN提取特征对蛋白质进行表示,还有研究将3D结构平铺为氨基酸节点的邻接矩阵,然后利用图神经网络的算法进行建模。
在多模态上,关键是如何将单模态的信息进行融合,大多数的研究利用不同的特征提取器提取单模态的信息,然后将不同模态的embedding进行拼接或加和,得到新的embedding作为多模态的表征,也有人在拼接或加和之后将embedding输入到一个新的交互网络中,比如Transformer,去得到一个交互的embedding。
当前很多多模态融合的方法只是简单地将单模态的表征进行拼接或加和,这种方法并不能细粒度地学习模态之间的交互信息,得到的表征向量会丢失很多信息。有些研究考虑到要学习模态间的交互,它们在原始数据的初始嵌入层将两个模态的数据进行拼接,然后传入Transformer的编码层去学习token间的关系,尽管如此,该方法在早期对模态进行融合,会导致每个模态并没有充分提取高级的语义信息就与其它模态融合,在后续任务中表现的不尽人意。此外,基本所有的研究都是提取出多模态的表征之后直接用于下游,但是无论多模态的特征学得多好,总会有单模态的信息在传递过程中丢失。
发明内容
鉴于此,有必要针对现有技术存在的缺陷提供一种可以最大程度保留单模态原有的信息的用于蛋白质表征学习的多模态信息融合方法。
为解决上述问题,本申请采用下述技术方案:
本申请目的之一在于,提供一种用于蛋白质表征学习的多模态信息融合方法,包括下述步骤:
对开源蛋白质数据进行预处理;
将所述蛋白质数据集划分成训练集、验证集和测试集;
构建单模态特征提取器,所述单模态特征提取器作为蛋白质序列的特征提取器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111536668.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于区块链的信息处理装置
- 下一篇:一种故障预测方法、设备及存储介质