[发明专利]基于多序列比对的酶序列生成方法、装置、介质和设备在审
| 申请号: | 202211156880.2 | 申请日: | 2022-09-21 |
| 公开(公告)号: | CN115472224A | 公开(公告)日: | 2022-12-13 |
| 发明(设计)人: | 余函;张洋铭;罗小舟 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
| 主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B40/00;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市铭粤知识产权代理有限公司 44304 | 代理人: | 孙伟峰;刘燚圣 |
| 地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 序列 生成 方法 装置 介质 设备 | ||
本发明公开了一种基于多序列比对的酶序列生成方法、装置、介质和设备。该酶序列生成方法包括:从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干条相似氨基酸序列;将完整氨基酸序列和若干条相似氨基酸序列进行多序列比对处理,获得若干条对齐氨基酸序列,其中各条对齐氨基酸序列的长度相同;将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练,获得氨基酸序列生成模型;利用氨基酸序列生成模型生成目标酶的多条扩展氨基酸序列。通过筛选相似的天然氨基酸序列并进行多序列比对处理,模型可以充分学习到并保留氨基酸序列中的关键位点信息,这样利用模型生成全新的氨基酸序列中具有酶活性的比例更高。
技术领域
本发明属于生物医药技术领域,具体地讲,涉及一种基于多序列比对的酶序列生成方法、生成装置、计算机可读存储介质、计算机设备。
背景技术
酶在生物催化、化工领域有着重要的应用,而由于天然酶存在的数量有限,限制了下游真实场景的工业应用。而众所周知,酶的功能由结构决定,酶的结构则本质上由一级序列决定,因此为了更有效的探索酶功能的空间,需要我们对天然酶的序列进行拓宽。除了传统的实验方法,例如定向进化和理性设计对酶进行改造外,随着机器学习、深度学习等方法的发展,基于计算的方法对酶进行改造也成为了另一类重要的研究方案。代表性的是基于生成式对抗网络的酶序列生成方法,该方法已经证明了可以有效的拓宽有效的酶序列空间,但是该方法在样本较少,即少序列生成时效果仍然不好,如关键位点的丢失,造成生成的氨基酸序列中有酶活性序列的比例较低。
发明内容
(一)本发明所要解决的技术问题
如何提高生成的酶的氨基酸序列中有酶活性序列的比例。
(二)本发明所采用的技术方案
一种基于多序列比对的酶序列生成方法,所述酶序列生成方法包括:
从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干条相似氨基酸序列;
将所述完整氨基酸序列和若干条所述相似氨基酸序列进行多序列比对处理,获得若干条对齐氨基酸序列,其中各条对齐氨基酸序列的长度相同;
将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练,获得氨基酸序列生成模型;
利用所述氨基酸序列生成模型生成所述目标酶的多条扩展氨基酸序列。
优选地,从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干相似氨基酸序列的方法为:
采用局部对齐搜索工具从所述序列数据库中筛选出若干条相似氨基酸序列,其中每条所述相似氨基酸序列与所述完整氨基酸序列之间的覆盖度大于第一阈值且相似度大于第二阈值。
优选地,将若干条对齐氨基酸序列作为训练样本对预先构建好的生成式对抗网络模型进行训练的方法包括:
采用不同的数字代表对齐氨基酸序列中不同种的氨基酸类型以及补齐字符,将每条对齐氨基酸序列转换为数字编码串;
将若干条对齐氨基酸序列对应的若干个数字编码串作为训练样本对预先构建好的生成式对抗网络模型进行训练。
优选地,每个数字编码串中具有21种不同的数字。
优选地,所述第一阈值为90%,所述第二阈值为70%。
本申请还公开了一种基于多序列比对的酶序列生成装置,所述酶序列生成装置包括:
序列筛选单元,用于从序列数据库中筛选出与目标酶的完整氨基酸序列相似的若干条相似氨基酸序列;
多序列对比单元,用于将所述完整氨基酸序列和若干条所述相似氨基酸序列进行多序列比对处理,获得若干条对齐氨基酸序列,其中各条对齐氨基酸序列的长度相同;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211156880.2/2.html,转载请声明来源钻瓜专利网。





