[发明专利]蛋白质训练模型的训练方法及装置、电子设备和存储介质在审
申请号: | 202210583278.0 | 申请日: | 2022-05-26 |
公开(公告)号: | CN114898811A | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 唐杰;肖易佳 | 申请(专利权)人: | 清华大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B15/00;G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 罗岚 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 蛋白质 训练 模型 方法 装置 电子设备 存储 介质 | ||
本公开公开了蛋白质训练模型的训练方法及装置、电子设备和存储介质,涉及数据处理技术领域,主要技术方案包括:将蛋白质数据输入预训练模型,其中,所述蛋白质数据为未标记的蛋白质数据,基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列,基于所述预训练模型对所述预训练用蛋白质序列进行训练,以获取所述预训练模型输出至少一种蛋白质预测任务。与相关技术相比,基于预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列,并基于预训练用蛋白质序列进行训练,实现对蛋白质的结构和/或性质的高效预测。
技术领域
本公开涉及数据处理技术领域,尤其涉及一种蛋白质训练模型的训练方法及装置、电子设备和存储介质。
背景技术
蛋白质是生命体不可缺少的组成部分,是生物催化(如淀粉酶)、运输(如血红蛋白)、免疫(如抗体)、运动(如肌动蛋白)等一系列生命活动的承担者。蛋白质结构、性质信息的对生命科学的研究至关重要。传统的测量方法基于湿实验进行,对人力和物力要求高,而且测量周期较长。高通量测序技术的出现,使得蛋白质序列数据呈现爆发式增长。由于蛋白质序列和文本序列的相似性,研究人员使用自然语言处理模型来建模蛋白质序列,并且在蛋白质性质、结构预测方面取得了不错的表现。自然语言处理领域的大规模预训练模型,在自然语言处理的下游任务上取得了优异的表现,说明在合理的训练条件下,随着规模的增长,大规模预训练模型仍然可收敛,并取得更加优异的表现。同样,扩大蛋白质语言模型的规模,也可以提高模型建模蛋白质序列的能力。
传统的蛋白质结构的分析范式是实验性的,经典方法包括X射线晶体学、电子显微镜和核磁共振光谱学分析等。实验方法费时费力,严重依赖硬件仪器。例如,X射线晶体学包括蛋白质纯化、蛋白质结晶、X射线衍射、衍射图案分析和三维结构重建,上述实施方式效率较低。高通量测序的进步提供了高效且经济的测序手段,海量的无标记数据使计算机分析成为可能。
发明内容
本公开提供了一种蛋白质训练模型的训练方法、装置、电子设备和存储介质。其主要目的在于基于大规模蛋白质语言模型实现高效对蛋白质的结构和性质的预测。
根据本公开的第一方面,提供了一种蛋白质训练模型的训练方法,包括:
将蛋白质数据输入预训练模型;其中,所述蛋白质数据为未标记的蛋白质数据;
基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列;
基于所述预训练模型对所述预训练用蛋白质序列进行训练,以获取所述预训练模型输出至少一种蛋白质预测任务。
可选的,所述方法还包括:
基于带标记的样本蛋白质序列,对所述预训练模型输出的至少一种蛋白质预测任务进行调整。
可选的,所述基于所述预训练模型按照预设拼接方式进行拼接,得到预训练用蛋白质序列包括:
若确定预训练用蛋白质序列的长度存在差异,则使用序列间分隔符将至少两条预训练用蛋白质序列拼接为一条预训练用蛋白质序列;
确定拼接的预训练用蛋白质序列的长度是否等于或者大于预训练模型的最大处理序列长度;
若是,则停止预训练用蛋白质序列的拼接,并根据预训练用蛋白质序列的顺序,添加预设填充符,使添加所述预设填充符的预训练用蛋白质序列的长度等于所述预训练模型的最大处理序列长度。
可选的,所述预测任务包括二级结构预测任务、分类预测任务、远程同源性检测任务、荧光性预测任务以及稳定性预测任务中的至少一种。
可选的,所述预训练模型的损失函数采用掩码语言模型损失函数;
所述预训练模型为多序列预训练模型。
根据本公开的第一方面,提供了一种蛋白质训练模型的训练方法,其中,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210583278.0/2.html,转载请声明来源钻瓜专利网。