[发明专利]蛋白质训练模型的训练方法及装置、电子设备和存储介质在审
申请号: | 202210583278.0 | 申请日: | 2022-05-26 |
公开(公告)号: | CN114898811A | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 唐杰;肖易佳 | 申请(专利权)人: | 清华大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B15/00;G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 罗岚 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 蛋白质 训练 模型 方法 装置 电子设备 存储 介质 | ||
1.一种蛋白质训练模型的训练方法,其特征在于,包括:
将蛋白质数据输入预训练模型;其中,所述蛋白质数据为未标记的蛋白质数据;
基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列;
基于所述预训练模型对所述预训练用蛋白质序列进行训练,以获取所述预训练模型输出至少一种蛋白质预测任务。
2.根据权利要求1所述的训练方法,其特征在于,所述方法还包括:
基于带标记的样本蛋白质序列,对所述预训练模型输出的至少一种蛋白质预测任务进行调整。
3.根据权利要求1所述的训练方法,其特征在于,所述基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列包括:
若确定预训练用蛋白质序列的长度存在差异,则使用序列间分隔符将至少两条预训练用蛋白质序列拼接为一条预训练用蛋白质序列;
确定拼接的预训练用蛋白质序列的长度是否等于或者大于预训练模型的最大处理序列长度;
若是,则停止预训练用蛋白质序列的拼接,并根据预训练用蛋白质序列的顺序,添加预设填充符,使添加所述预设填充符的预训练用蛋白质序列的长度等于所述预训练模型的最大处理序列长度。
4.根据权利要求1所述的训练方法,其特征在于,所述预测任务包括二级结构预测任务、分类预测任务、远程同源性检测任务、荧光性预测任务以及稳定性预测任务中的至少一种。
5.根据权利要求1-4中任一项所述的训练方法,其特征在于,所述预训练模型的损失函数采用掩码语言模型损失函数;
所述预训练模型为多序列预训练模型。
6.一种蛋白质训练模型的训练装置,其特征在于,包括:
输入单元,用于将蛋白质数据输入预训练模型;其中,所述蛋白质数据为未标记的蛋白质数据;
拼接单元,用于基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列;
训练单元,用于基于所述预训练模型对所述预训练用蛋白质序列进行训练,以获取所述预训练模型输出至少一种蛋白质预测任务。
7.根据权利要求6所述的训练装置,其特征在于,所述装置还包括:
调整单元,用于基于带标记的样本蛋白质序列,对所述预训练模型输出的至少一种蛋白质预测任务进行调整。
8.根据权利要求6所述的训练装置,其特征在于,所述训练单元包括:
拼接模块,用于当确定预训练用蛋白质序列的长度存在差异时,使用序列间分隔符将至少两条预训练用蛋白质序列拼接为一条预训练用蛋白质序列;
确定模块,用于确定拼接的预训练用蛋白质序列的长度是否等于或者大于预训练模型的最大处理序列长度;
停止模块,用于当所述确定模块确定拼接的预训练用蛋白质序列的长度等于或者大于预训练模型的最大处理序列长度时,停止预训练用蛋白质序列的拼接;
添加模块,用于根据预训练用蛋白质序列的顺序,添加预设填充符,使添加所述预设填充符的预训练用蛋白质序列的长度等于所述预训练模型的最大处理序列长度。
9.根据权利要求6所述的训练装置,其特征在于,所述预测任务包括二级结构预测任务、分类预测任务、远程同源性检测任务、荧光性预测任务以及稳定性预测任务中的至少一种。
10.根据权利要求6-9中任一项所述的训练装置,其特征在于,所述预训练模型的损失函数采用掩码语言模型损失函数;
所述预训练模型为多序列预训练模型。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210583278.0/1.html,转载请声明来源钻瓜专利网。