[发明专利]一种基于多种群遗传算法的一般蛋白质设计方法在审
申请号: | 202210812579.6 | 申请日: | 2022-07-11 |
公开(公告)号: | CN115394351A | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 广红;王威丹;宋加磊 | 申请(专利权)人: | 青岛超蓝生物信息科技有限公司 |
主分类号: | G16B15/00 | 分类号: | G16B15/00;G16B15/20;G06N3/12 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266000 山东省青岛市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多种 遗传 算法 一般 蛋白质 设计 方法 | ||
本发明涉及一种基于多种群遗传算法的一般蛋白质设计方法,所述蛋白质设计方法包括一个最优化模型P1,通过分析蛋白质联合残基力场,并采用能量项建立蛋白质结构预测模型。本发明对一般蛋白质预测建立了新的最优化模型,把一个具有多约束最优化问题,重构为简单约束最优化问题,简化了问题,更容易进行数值计算;利用惩罚技术将问题转化为简单盒子约束的最优化问题。本发明在最优化模型P2的基础上,采用多种群遗传算法来预测蛋白质三维结构。
技术领域:
本发明涉及生物工程技术领域,具体涉及一种基于多种群遗传算法的一般蛋白质设计方法。
背景技术:
蛋白质计算设计是指通过计算理性地确定蛋白质的氨基酸序列,实现预设的结构和功能。蛋白质计算设计已逐渐形成了一套系统的方法,得到越来越多的实验验证。这些方法既可用于从头设计蛋白,也可以用于既有蛋白的理性改造,具有广泛应用前景,是合成生物学的重要使能技术之一。蛋白质是执行生物功能的主要生物大分子,也是用于构筑合成生物系统的主要元件。大多数蛋白质的功能取决于它们的特定三维空间结构和特异性分子间相互作用。氨基酸序列决定了蛋白质三维结构和相互作用,从而决定蛋白质功能。
20世纪90年代后期,随着分子力学能量函数、氨基酸侧链构象库、优化算法等的发展,Dahiyat等首先实现了用自动优化的方法来设计氨基酸序列。在此类算法中,主链骨架是被事先给定的(如来源于天然蛋白质结构),且可被假设为固定不变。设计中需要通过计算来确定的未知量包括每个主链位置上的氨基酸残基类型以及其侧链构象。这些未知量的所有容许取值(即氨基酸侧链类型及其构象状态的可能组合)构成了氨基酸序列和侧链构象空间。定义在该空间上的能量函数则被用于评估特定序列和构象组合的好坏。定义了主链结构和能量函数后,设计者通过特殊的算法在序列和侧链构象的未知量空间中自动搜索,找出能量尽可能低的解,得到设计结果。
蛋白质是生命系统中重要的大分子物质,蛋白质特有的结构特征是其功能形成与展现的根本物理基础。因此探索蛋白质折叠机制归纳蛋白质组成与结构之间的关系就成为蛋白质研究中的重要问题。蛋白质折叠结构在很大程度上决定了其生物学功能,而目前的实验手段能较容易地测出构成蛋白质链的氨基酸序列,却无法观测出蛋白质链的空间折叠结构。随着计算机科学技术的进步,人们开始寻求以理论计算的方法直接预测蛋白质的空间折叠结构。
研究折叠问题的目的是从蛋白质序列出发来预测结构,X射线晶体衍射方法和多维核磁共振技术是目前测定蛋白质结构的主要方法,但实验方法耗资耗时,且受实验条件的限制,因此利用数学和计算机技术预测蛋白质结构具有十分重要的意义。天然蛋白质与其所处的环境构成一个热力学系统,处于一定环境中的蛋白质的天然结构是整个系统最稳定时的结构,即系统能量最低时的结构,这个结构是唯一的。要在此理论基础上预测蛋白质结构,首先应建立一个能区别蛋白质天然结构和其它结构的能量函数,然后在蛋白质的结构空间寻找能量函数的全局极小点。
沿着这一思路,人们开始转向纯粹计算的方法,通过蛋白质链的构成来对蛋白质结构进行预测。给定一个蛋白质氨基酸序列,人们假定蛋白质的天然结构即为按某种方式定义的“最低能量”构形。这样,按着某个确定的能量函数在所有可能的构形中找出能量最低的构形即为蛋白质的真实折叠结构。于是,蛋白质结构预测问题就落实为一个满足一定约束条件的最优化问题。尽管这一原理非常简单,但沿着这一思路想要彻底解决蛋白质结构预测问题却遇到了极大的挑战,因为此类问题往往被科学家们证实为NP难度问题。当问题规模较大时,所有的方法都无法在可接受的时间内计算出最低能量状态。所以要想给出既完整又快速的求解算法是一件不可能的事情。启发式优化算法有可能在较短的时间内求解大规模的问题实例,并达到令人满意的优度。虽然启发式优化算法不能总是保证能找到问题实例的最优解,但通过设计一些比较高效的启发式策略,往往可以在算法速度和优度之间达到一种很好的平衡。
发明内容:
为了克服现有技术的不足,本发明为解决蛋白质设计中的结构预测的数值计算的难点,改进现有蛋白质结构的模型,提出一个更易于计算的连续模型,并提出求解此问题的遗传算法,有效得到问题最优解,预测效率较高,收敛性较好,弥补了现有方法的缺陷。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛超蓝生物信息科技有限公司,未经青岛超蓝生物信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210812579.6/2.html,转载请声明来源钻瓜专利网。