[发明专利]基于随机分形搜索算法的蛋白质结构预测方法在审
申请号: | 201710194542.0 | 申请日: | 2017-03-29 |
公开(公告)号: | CN107122623A | 公开(公告)日: | 2017-09-01 |
发明(设计)人: | 周昌军;孙川;郑学东;王宾;周士华 | 申请(专利权)人: | 大连大学 |
主分类号: | G06F19/16 | 分类号: | G06F19/16 |
代理公司: | 大连八方知识产权代理有限公司21226 | 代理人: | 卫茂才 |
地址: | 116622 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 随机 搜索 算法 蛋白质 结构 预测 方法 | ||
技术领域
本发明属于生物信息学领域,具体涉及一种基于随机分型搜索算法的蛋白质结构预测方法。
背景技术
随着生命科学的发展和人类基因组计划的顺利完成,生命科学已经进入后基因时代。人们从生物信息的研究中获得了对生命本质更丰富的知识和深刻的理解,生物信息学已经成为近年来最有活力的生物学研究领域之一。
蛋白质是由基因决定的,是生物体不可缺少的重要物质,是所有生命活动的体现者。虽然基因确定了组成蛋白质的氨基酸序列,但是只有这些氨基酸序列折叠成特定的空间结构才具有相应的活性和生物学功能。所以研究蛋白质结构对揭示生命秘密也有着重要的意义。
目前研究蛋白质结构有两类方法:实验方法和理论分析方法。目前对蛋白质结构的测定技术主要有:X射线晶体衍射技术和核磁共振技术。尽管蛋白质结构测定技术近年来有了较为显著的进展,但是通过实验方法确定蛋白质结构的过程仍然非常复杂、昂贵且实验周期很长。随着DNA测序技术的发展,人类基因组已经被完全测序,这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量(如蛋白质数据库PDB中的数据)的差距越来越大。为了减小这种差距,人们希望利用理论分析方法来预测蛋白结构。
从头预测方法是蛋白质结构预测的主流方法之一,其根据物理、化学原理,通过理论计算(如分子力学、分子动力学)建立模型,把蛋白质结构预测问题转化为一种典型的NP问题,然后利用先进的算法解决这个NP问题。当前,科学家提出了多种研究蛋白质结构预测的适用模型,其中应用最广泛的是按照氨基酸的亲疏水性分为疏水氨基酸和亲水氨基酸的两种粗粒化模型:HP格点模型和AB非格点模型。两种模型最主要的区别在于,HP格点模型中两个残基键之间的角度是直角或者平角,而AB非格点模型中两个键之间的角度是任意的,其不仅考虑了相邻两个氨基酸间的相互作用还包括不相邻氨基酸之间的非局部作用对蛋白质结构的影响。目前用计算机进行研究蛋白质结构预测的算法很多,呈现不断递增的趋势,例如Hou等提出改进的遗传、粒子群混合算法和改进的遗传、粒子群、禁忌混合算法两种解决方法,结合了遗传算法、粒子群算法和禁忌算法的优点,提高全局最优搜索,提高结果的搜索精度。Li等采用平衡进化人工蜂群算法来解决蛋白质结构预测问题,但是上述方法在进行蛋白质结构预测时,其探索搜索空间的有效性、收敛性和精确性仍然有待提高。
发明内容
本发明的目的在于提供一种基于随机分型搜索算法(SFS)的蛋白质结构预测方法,将随机分形搜索算法用于蛋白质结构预测中,搜索出更小的自由能值和对应的更稳定的结构,并有效提高了搜索的效率,缩短了搜索时间。
为达到上述技术目的,本发明采用的技术方案如下:
基于随机分形搜索算法的蛋白质结构预测方法,首先初始化参数及种群,进行迭代循环,计算种群适应度值,找到最优个体进行迭代循环;其次对最优个体进行扩散过程,得到新种群,计算适应度函数,根据适应度值选择其中表现最优个体;对新种群进行更新过程生成下一代的新种群,计算适应度函数,根据适应度值选取表现最优个体。这样不断迭代,当满足终止条件时,退出循环,输出结果,具体过程包括以下步骤:
步骤1:设置参数,初始化种群X=x1,x2,…,xn,其中n为种群大小;
步骤2:计算种群X中个体的适应度,根据适应度值的大小进行排序,并记忆保留最优个体;
步骤3:设置代数计数器t=1;
步骤4:通过高斯分布,对当前最优个体进行扩散过程,产生新的种群X1,并计算其适应度值;
GW1=G(PBest,σ)+(ξ*PBest-ξ'*Pi)
GW2=G(Pi,σ)
其中公式GW1=G(PBest,σ)+(ξ*PBest-ξ'*Pi)将快速收敛优化结果,公式GW2=G(Pi,σ)使得结果更加精确。在扩散过程中,可以根据不同的需求选择不同的公式。σ用来促进局部搜索并且随着高斯分布数目的增加而减小高斯步长。
步骤5:根据如下公式对种群进行更新,得到新种群X2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710194542.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用