[发明专利]模型训练、蛋白质特征提取和功能预测的方法与装置在审
申请号: | 202110996109.5 | 申请日: | 2021-08-27 |
公开(公告)号: | CN114333980A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 吴家祥 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B40/00;G16B50/00;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京励诚知识产权代理有限公司 11647 | 代理人: | 赵爽 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 蛋白质 特征 提取 功能 预测 方法 装置 | ||
本申请实施例提供一种模型训练、蛋白质特征提取和功能预测的方法与装置,其中,模型的训练方法包括:基于起始蛋白质的三维结构,构建起始拓扑图G,其中,所述起始拓扑图G采用所述起始蛋白质的氨基酸残基作为节点,所述起始拓扑图G采用邻近氨基酸残基对作为边;和将所述起始拓扑图G输入至预训练模型,对所述预训练模型进行训练,以便获得用于对所述蛋白质进行特征提取的预训练模型,其中,所述预训练模型包括具有SE(3)等变性的图神经网络。由此,可以提高蛋白质特征提取等相关预测的预测精度,降低工作成本,提高预测效率。
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种模型训练、蛋白质特征提取和功能预测的方法与装置。
背景技术
由氨基酸的线性链组成的蛋白质是活生物体中用途最广泛的分子之一。它们在普遍的生物学机制中起着至关重要的功能。蛋白质根据氨基酸序列自然折叠成三维结构,结构会对其功能产生直接影响。随着测序技术的出现,获得蛋白质序列变得相对更加容易,但是对于蛋白质功能的预测仍然需要大量时间和资源。
目前已有的蛋白质预训练方法中,多数是基于蛋白质的氨基酸序列或者其相关的同源序列数据,往往没有利用蛋白质的三维结构信息,但是,实际上,三维结构对于蛋白质的功能预测例如生物学功能等下游任务而言具有更直接的影响。
发明内容
本申请实施例提供一种模型训练、蛋白质特征提取和功能预测的方法与装置,以提高蛋白质特征提取等相关预测的预测精度,降低工作成本,提高预测效率。
第一方面,本申请的实施例提出了一种预训练模型的训练方法,所述预训练模型用于对蛋白质进行特征提取,该方法包括:基于起始蛋白质的三维结构,构建起始拓扑图G,其中,所述起始拓扑图G采用所述起始蛋白质的氨基酸残基作为节点,所述起始拓扑图G采用邻近氨基酸残基对作为边;和
将所述起始拓扑图G输入至预训练模型,对所述预训练模型进行训练,以便获得用于对所述蛋白质进行特征提取的预训练模型,
其中,所述预训练模型包括具有SE(3)等变性的图神经网络。
在一些实施例中,所述预训练模型在所述具有SE(3)等变性的图神经网络之前设置有注意力层。
在一些实施例中,所述注意力层为多头注意力层。
在一些实施例中,所述注意力层采用氨基酸残基的特征h,氨基酸残基之间的组合特征g以及氨基酸残基之间的α-碳原子距离r作为输入特征,输出经过更新的氨基酸残基特征h’和α-碳原子坐标s’i。
在一些实施例中,所述图神经网络包括选自EGNN、SE(3)-Transformer和Lie-Transformer的至少之一。
在一些实施例中,对所述预训练模型进行训练包括:
基于起始蛋白质的三维结构,构建起始拓扑图G,其中,所述起始拓扑图G采用所述起始蛋白质的氨基酸残基作为节点,所述起始拓扑图G采用邻近氨基酸残基对作为边;
对所述起始拓扑图G施加预先指定的噪声,以便得到至少一个经过扰动的拓扑图G’;
采用所述经过扰动的拓扑图G’作为输入特征,对预训练模型进行去噪训练,所述去噪训练采用所述经过扰动的拓扑图G’与所述起始拓扑图G之间的真实去噪梯度作为训练标记,以便得到所述预训练模型。
第二方面,本申请的实施例提出了一种对蛋白质进行特征提取的方法,其包括:
基于蛋白质的三维结构,构建起始拓扑图G,其中,所述起始拓扑图G采用所述蛋白质的氨基酸残基作为节点,所述起始拓扑图G采用采用邻近氨基酸残基对作为边;
基于所述拓扑图G,提取所述蛋白质的特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110996109.5/2.html,转载请声明来源钻瓜专利网。