[发明专利]蛋白质训练模型的训练方法及装置、电子设备和存储介质在审

申请号：	202210583278.0	申请日：	2022-05-26
公开（公告）号：	CN114898811A	公开（公告）日：	2022-08-12
发明（设计）人：	唐杰;肖易佳	申请（专利权）人：	清华大学
主分类号：	G16B40/00	分类号：	G16B40/00;G16B15/00;G06K9/62
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	罗岚
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	蛋白质训练模型方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开公开了蛋白质训练模型的训练方法及装置、电子设备和存储介质，涉及数据处理技术领域，主要技术方案包括：将蛋白质数据输入预训练模型，其中，所述蛋白质数据为未标记的蛋白质数据，基于所述预训练模型按照预设拼接方式进行拼接，得到预训练用蛋白质序列，基于所述预训练模型对所述预训练用蛋白质序列进行训练，以获取所述预训练模型输出至少一种蛋白质预测任务。与相关技术相比，基于预训练模型按照预设拼接方式进行拼接，得到预训练用蛋白质序列，并基于预训练用蛋白质序列进行训练，实现对蛋白质的结构和/或性质的高效预测。

技术领域

本公开涉及数据处理技术领域，尤其涉及一种蛋白质训练模型的训练方法及装置、电子设备和存储介质。

背景技术

蛋白质是生命体不可缺少的组成部分，是生物催化(如淀粉酶)、运输(如血红蛋白)、免疫(如抗体)、运动(如肌动蛋白)等一系列生命活动的承担者。蛋白质结构、性质信息的对生命科学的研究至关重要。传统的测量方法基于湿实验进行，对人力和物力要求高，而且测量周期较长。高通量测序技术的出现，使得蛋白质序列数据呈现爆发式增长。由于蛋白质序列和文本序列的相似性，研究人员使用自然语言处理模型来建模蛋白质序列，并且在蛋白质性质、结构预测方面取得了不错的表现。自然语言处理领域的大规模预训练模型，在自然语言处理的下游任务上取得了优异的表现，说明在合理的训练条件下，随着规模的增长，大规模预训练模型仍然可收敛，并取得更加优异的表现。同样，扩大蛋白质语言模型的规模，也可以提高模型建模蛋白质序列的能力。

传统的蛋白质结构的分析范式是实验性的，经典方法包括X射线晶体学、电子显微镜和核磁共振光谱学分析等。实验方法费时费力，严重依赖硬件仪器。例如，X射线晶体学包括蛋白质纯化、蛋白质结晶、X射线衍射、衍射图案分析和三维结构重建，上述实施方式效率较低。高通量测序的进步提供了高效且经济的测序手段，海量的无标记数据使计算机分析成为可能。

发明内容

本公开提供了一种蛋白质训练模型的训练方法、装置、电子设备和存储介质。其主要目的在于基于大规模蛋白质语言模型实现高效对蛋白质的结构和性质的预测。

根据本公开的第一方面，提供了一种蛋白质训练模型的训练方法，包括：

将蛋白质数据输入预训练模型；其中，所述蛋白质数据为未标记的蛋白质数据；

基于所述预训练模型按照预设拼接方式进行拼接，得到预训练用蛋白质序列；

基于所述预训练模型对所述预训练用蛋白质序列进行训练，以获取所述预训练模型输出至少一种蛋白质预测任务。

可选的，所述方法还包括：

基于带标记的样本蛋白质序列，对所述预训练模型输出的至少一种蛋白质预测任务进行调整。

可选的，所述基于所述预训练模型按照预设拼接方式进行拼接，得到预训练用蛋白质序列包括：

若确定预训练用蛋白质序列的长度存在差异，则使用序列间分隔符将至少两条预训练用蛋白质序列拼接为一条预训练用蛋白质序列；

确定拼接的预训练用蛋白质序列的长度是否等于或者大于预训练模型的最大处理序列长度；

若是，则停止预训练用蛋白质序列的拼接，并根据预训练用蛋白质序列的顺序，添加预设填充符，使添加所述预设填充符的预训练用蛋白质序列的长度等于所述预训练模型的最大处理序列长度。