[发明专利]基于NGA-TS算法的蛋白质结构预测方法有效

专利信息
申请号: 201610144174.4 申请日: 2016-03-11
公开(公告)号: CN105825075B 公开(公告)日: 2019-04-26
发明(设计)人: 周昌军;魏雪;郑学东;王宾 申请(专利权)人: 大连大学
主分类号: G16B15/20 分类号: G16B15/20
代理公司: 大连创达专利代理事务所(普通合伙) 21237 代理人: 刘涛
地址: 116622 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及蛋白质结构预测领域,涉及了一种基于小生境遗传和算法禁忌搜索算法的结合算法的蛋白质结构预测方法。该方法将禁忌搜索算法引入小生境遗传算法中来解决蛋白质结构预测问题,并对小生境遗传算法过程中的交叉、变异、小生境淘汰进行了一定的改进。从实验得出的数据和与其他方法的比较结果来看,该方法可以更加全面的搜索出相应的蛋白质最小自由能量值,从而能得到更稳定的蛋白质结构,说明了本方法在解决蛋白质结构预测问题上是有效的。
搜索关键词: 基于 nga ts 算法 蛋白质 结构 预测 方法
【主权项】:
1.基于NGA‑TS算法的蛋白质结构预测方法,其特征在于:其包括以下步骤:步骤1:初始化参数及种群;首先将蛋白质序列抽象为数字序列,其中A表示疏水氨基酸,B表示亲水氨基酸,在程序中疏水氨基酸对应的值为1,亲水氨基酸对应的值为‑1,真实蛋白质也是同样的规则,只是氨基酸的表示字母不同,即长度为5的序列表示为[1 ‑1 ‑1 1 ‑1],根据蛋白质序列的长度确定种群个体的维度,当序列为n时,其中n表示序列长度,种群个体的维度应为2n‑5,实为氨基酸的键角和扭转角之和,所以,在实例序列长度为5的情况下,种群个体的维度为2*5‑5=5,初始化种群X=x1,x2,…,xm,其中m为种群大小,且每个元素都表示角度即[‑π,π]范围中的随机数;步骤2:进行迭代循环,计算种群适应度;步骤3:对种群进行竞技选择、自适应交叉、自适应随机线性变异,更新种群;步骤4:对新种群进行小生境淘汰选择,更新种群;步骤5:在进化后期,对新种群进行禁忌搜索算法,更新种群;步骤6:判断是否满足终止条件,若满足则退出循环,继续运行步骤7,否则跳到步骤3;步骤7:结束循环后,对最优值再进行一次禁忌搜索,最后输出结果;该方法具体步骤如下:1)初始化种群X=x1,x2,…,xn,其中n为种群大小;2)计算种群X中个体的适应度值Fi,其中i=1,2,…,n;根据适应度值的大小进行升序排序,并记忆保留前n/2个个体记作记忆种群P;3)设置代数计数器t=1;4)先将种群X中的前k个适应度值小的个体复制到新种群X1中,再将X1中的n‑k个个体通过对种群X进行竞技选择选出,其中竞技选择的个数为y,即从X中随机选择y个个体,选取适应度值好的保留到新种群X1中,这样进行n‑k次选择,形成种群X1;5)对种群X1进行自适应交叉:在进化初期,交叉概率Pc0等于0.8;在进化后期,即其中T为迭代次数,交叉概率Pc用自适应公式:Pc=Pc0×(1‑i/n)1/2,其中i为交叉个体在种群中的下标索引确定,Pc0等于0.8;判断随机数a与交叉概率的大小,其中随机数a为一个(0,1)范围内的正态分布随机数,且每个个体交叉判断都要重新生成随机数a;当随机数a小于交叉概率时,随机确定交叉点对X1中的个体xi和个体xn‑i+1进行交叉;当随机数a大于交叉概率时,不进行交叉,这样进行n/2次交叉后形成种群X2;6)对种群X2进行自适应随机线性变异:在进化初期,即其中T为迭代次数,变异概率Pm用自适应公式:其中i为变异个体在种群中的下标索引确定,在进化后期变异概率PmO等于0.08;判断随机数b与变异概率的大小,其中随机数b为一个(0,1)范围内的正态分布随机数,且每个个体交叉判断都要重新生成随机数b:当b大于变异概率时,不进行变异;当b小于变异概率时,对X1中的个体xi随机选取一个位置i用线性变异公式:进行变异,其中ran为(0,1)区间内的随机数,当ran<0.5时f(ran)=‑1,当ran>0.5时f(ran)=1;r和α都是(0,1)区间内的随机数;i为下标索引;整个种群X2运行完变异后就得到种群X3,并计算种群X3适应度;7)将种群X3和记忆种群P合并为种群XP,种群XP的个体数为3n/2,对种群XP进行小生境淘汰;分别对XP中的两两个体进行计算欧式距离:当dij<L时,其中L为小生境的距离参数,小生境的距离参数是由动态函数公式得到的,判断xi和xj的适应度Fi和Fj的大小并将适应度差的处以罚函数,然后根据当前变更的适应度将种群XP中的个体升序排列;8)取种群XP的前n个个体作为种群X,计算更新种群X的适应度值并根据适应度值大小进行升序排列,取种群X的前n/2个个体作为新的记忆种群P;9)判断是否禁忌搜索:若t<T‑5,则运行步骤10);否则对种群X进行禁忌搜索;具体步骤如下:a)初始化禁忌表,设置禁忌迭代计数器tscount=1;b)对当前候选解进行随机线性变异操作,线性变异公式:x=x+f(ran)×2π×ri‑1,其中ran为(0,1)区间内的随机数,当ran<0.5时f(ran)=‑1,当ran>0.5时f(ran)=1;r和α都是(0,1)区间内的随机数;i为邻域的下标索引,范围为(1,100)的区间形成一组邻域解,并按照适应度值排序;c)判断邻域解中的最小值是否比最优解更小,若是则满足藐视准则,若否则不满足藐视准则;若满足则更新候选解、禁忌表和最优解,即将邻域中最小值赋值给候选解和最优解,并将邻域中最小值放入禁忌表中;若不满足则判断邻域解中最小的10个解是否在禁忌表中,若不在则更新禁忌表,即将其放入禁忌表中;d)禁忌迭代计数器tscount=tscount+1,判断终止条件,若tscount<=Tt,其中Tt为禁忌搜索的迭代次数,则跳到步骤b)继续运行,若tscount>Tt,则终止迭代,返回主函数中运行,并返回最优解;10)判断禁忌搜索算法得到的适应度值是否小于步骤8)中X种群的适应度值,若是则将X中原先的个体序列和适应度值替换掉,否则不做改变;这样形成新种群X,取X种群的前n/2个个体作为新的记忆种群P;11)迭代计数器累加t=t+1,判断终止条件,若t<=T,其中T为迭代次数,则继续迭代跳到步骤4)运行,若t>T则迭代结束,运行步骤12);12)将得到的最优值进行禁忌搜索,其具体步骤同步骤9),返回其邻域中的最优值作为最后的最佳结果;13)输出最佳结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610144174.4/,转载请声明来源钻瓜专利网。

同类专利
  • 一种双重分布估计引导的蛋白质构象空间搜索方法-201710148984.1
  • 张贵军;郝小虎;谢腾宇;周晓根;王柳静 - 浙江工业大学
  • 2017-03-14 - 2019-07-30 - G16B15/20
  • 一种双重分布估计引导的蛋白质构象空间搜索方法,同时启动多条Monte Carlo轨迹,并根据当前所有轨迹个体信息构建能量分布概率模型和历史接受概率模型,根据两个概率模型选择一条Monte Carlo轨迹执行下一次搜索,使得搜索过程主要向能量更低的区域进行,并以一定的概率在高能量区域进行搜索,在一定程度上克服了能量模型不精确的问题,最终得到一系列近天然态构象。本发明在蛋白质结构预测中应用,可以得到预测精度较高、复杂度较低的构象。
  • 一种核磁共振氟谱理论计算判定手性胺绝对构型的方法-201910339186.6
  • 杨士伟;宋玲;边广岭 - 中国科学院福建物质结构研究所
  • 2019-04-25 - 2019-07-23 - G16B15/20
  • 本发明公开了一种利用理论计算核磁共振氟谱并与实验数值相比较来判定手性胺化合物绝对构型的方法。该方法用于判定手性胺类化合物绝对构型的主要特征在于:首先通过理论计算氟谱方法获得具有最稳定构象的非对映体酰胺化合物的两种构型的理论计算氟谱化学位移差值Δδα‑FR,S,然后再利用核磁共振仪氟谱获得非对映体酰胺化合物的化学位移差值Δδα‑FR,S,通过比较这两种方法获得的Δδα‑FR,S正负符号,即可准确地判定待测样品的绝对构型。该方法适用范围包括手性胺、氨基醇、氨基酸酯多种手性化合物的绝对构型的判定,实施方式简单,操作方便、准确度高,是一种简洁高效的判定绝对构型的新方法。
  • 一种RNA二级结构的预测方法-201910285287.X
  • 孙婷婷;苏静杰 - 浙江科技学院
  • 2019-04-10 - 2019-07-12 - G16B15/20
  • 本发明公开了一种RNA二级结构的预测方法,本发明通过对PDB数据集进行数据预处理,将其分为RNA一级序列数据集和RNA二级结构数据集;再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理,将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型,得到一个目标函数,并将RNA二级结构数据集作为机器学习模型的输出标签,对机器学习模型进行训练和测试;最后利用训练和测试后的机器学习模型进行RNA二级结构预测。本发明采用监督学习算法,利用人工智能的方法对RNA二级结构进行预测,大大的提高了预测效率,并且预测结果较为准确。
  • 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法-201610845314.0
  • 张贵军;周晓根;郝小虎;王柳静;俞旭锋;徐东伟;李章维 - 浙江工业大学
  • 2016-09-23 - 2019-07-05 - G16B15/20
  • 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法,首先,计算当前种群中各构象个体到新构象的距离,并根据距离进行升序排列;然后,选取新构象个体的部分邻近构象个体抽象凸下界估计支撑面,以获取新构象个体的能量下界估计值;其次,计算所有新构象个体的能量下界估计值与实际能量值之间的平均估计误差,并根据平均估计误差的变化将整个算法分为多个优化阶段;最后,根据上一次迭代中的平均估计误差判断当前迭代所处的阶段,并对各阶段设计不同的策略生成新构象个体。本发明提出一种预测精度高、计算代价低的基于群体抽象凸估计的多阶段差分进化蛋白质结构预测方法。
  • 基于NGA-TS算法的蛋白质结构预测方法-201610144174.4
  • 周昌军;魏雪;郑学东;王宾 - 大连大学
  • 2016-03-11 - 2019-04-26 - G16B15/20
  • 本发明涉及蛋白质结构预测领域,涉及了一种基于小生境遗传和算法禁忌搜索算法的结合算法的蛋白质结构预测方法。该方法将禁忌搜索算法引入小生境遗传算法中来解决蛋白质结构预测问题,并对小生境遗传算法过程中的交叉、变异、小生境淘汰进行了一定的改进。从实验得出的数据和与其他方法的比较结果来看,该方法可以更加全面的搜索出相应的蛋白质最小自由能量值,从而能得到更稳定的蛋白质结构,说明了本方法在解决蛋白质结构预测问题上是有效的。
  • 一种局部增强的多模态差分进化蛋白质结构从头预测方法-201610846348.1
  • 张贵军;郝小虎;王柳静;周晓根;陈凯;谢腾宇;李章维 - 浙江工业大学
  • 2016-09-23 - 2019-04-23 - G16B15/20
  • 一种局部增强的多模态差分进化蛋白质结构从头预测方法,包括以下步骤:在差分进化算法框架下,采用Rosetta score3粗粒度知识能量模型来降低构象空间维数;将构象种群划分为多个模态,以保持种群多样性,采用片段组装技术来提高预测精度,同时采用蒙特卡洛算法对种群做增强;在种群进化后期,使用抽象凸估计技术,建立模态的下界估计模型,构建广义下降方向,对模态内个体做局部增强,以得到更为优良的局部构象;结合差分进化算法较强的全局搜索能力,可以对构象空间进行更为有效的搜索。本发明基于差分进化算法,提出一种构象空间搜索维数较低、收敛速度较快、预测精度较高的局部增强的多模态差分进化蛋白质结构从头预测方法。
  • 一种统计计算固有无序蛋白多态结构的方法-201610850424.6
  • 何建锋 - 北京理工大学
  • 2016-09-26 - 2019-04-16 - G16B15/20
  • 本发明涉及一种统计计算固有无序蛋白多态结构的方法,属于蛋白质非平衡动力学与多态结构研究领域。通过对固有无序蛋白进行上千次的折叠或非平衡动力学模拟,统计分析获得固有无序蛋白的结构图景、聚类和特性为主的重要信息,步骤为:1获取蛋白质实验结构;2计算中心碳原子链接形成的键角和扭转角;3构建蛋白质拟合模型;4模拟细胞环境变化导致固有无序蛋白的构型变化过程;5对蛋白质进行千次以上加热‑冷却模拟循环,确定具有多态结构的低温值和高温值;6获得提纯的末态构型数据组;7归纳和分析固有无序蛋白的结构聚类;8可视化固有无序蛋白结构聚类的特征构型。本发明解决了传统理论及实验方法难以同时捕捉固有无序蛋白多态结构的难题。
  • 一种基于基因本体信息的蛋白质序列表示方法-201710071092.6
  • 肖绚;程翔 - 景德镇陶瓷大学
  • 2017-02-09 - 2019-04-09 - G16B15/20
  • 本发明涉及一种新的基于基因本体信息的蛋白质序列表示方法,首先使用BLAST程序搜索Swiss‑Prot数据库找到蛋白质序列P所有的相似蛋白质序列,将训练数据集中所有蛋白质输入到GO数据库中,搜寻每个蛋白质所具有的GO本体信息;然后在基因本体库中搜寻P蛋白质所具有的标注基因本体信息;根据预测问题具有的M个标签,将P蛋白质定义为M个元素的离散向量。本方法通过将序列集中的蛋白质GO信息,融合成新的蛋白质P的向量描述,使得采用GO方法维度大大降低,用于蛋白质亚细胞多标签定位预测和抗菌肽功能多标签预测中,能明显提高相关预测器的预测成功率,具有广阔的运用前景。
  • 一种基于量子进化算法的蛋白质构象空间优化方法-201611003479.X
  • 张贵军;郝小虎;周晓根;王柳静;李章维 - 浙江工业大学
  • 2016-11-15 - 2019-01-29 - G16B15/20
  • 一种基于量子进化算法的蛋白质构象空间优化方法,包括以下步骤:基于量子进化算法框架,以Rosetta Score3为优化目标函数,基于氨基酸序列粗粒度表达模型,将能量计算模型转换为二面角优化空间能量模型;采用实相位角编码方式对氨基酸序列的二面角表达个体进行编码,通过片段组装执行量子变异操作,以提高预测精度,应用量子旋转门对种群个体进行量子更新,以达到局部调整角度的目的,通过迭代的进化过程,算法将产生能量较低,结构合理的蛋白质构象。本发明在蛋白质结构预测应用中能够,可以快速的得到预测精度较高构象。
  • 一种基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法-201610884824.9
  • 张贵军;周晓根;王柳静;郝小虎;俞旭锋;徐东伟;李章维 - 浙江工业大学
  • 2016-10-10 - 2019-01-22 - G16B15/20
  • 一种基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法,首先,根据随机选择的构象个体、当前目标构象个体和能量值最低的构象构体生成三个不同的新构象个体;然后,分别计算当前种群中各构象个体到各新构象个体的距离,并根据距离进行升序排列;其次,计算离各新构象个体最近的部分构象个体的抽象凸支撑面,从而计算各新构象个体的能量估计值;最后,比较各新构象个体能量估计值,从而选取能量估计值最低的新构象个体进行能量函数评价。本发明提出一种预测精度高、搜索效率高的基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法。
  • 一种基于深度学习的蛋白质结构预测方法-201610735964.X
  • 张贵军;俞旭锋;周晓根;郝小虎;王柳静 - 浙江工业大学
  • 2016-08-26 - 2019-01-22 - G16B15/20
  • 一种基于深度学习Residue2vec的蛋白质结构预测方法,给定输入序列信息,将PDB网站上已知的蛋白质结构看成语料库进行训练,将结构已知的蛋白质分割成长度为n的残基,通过CBOW模型结合Huffman编码,获取每个残基在向量空间中的表示,通过计算残基向量之间的距离来判断残基间的相似性,从而获取查询序列每个残基位置上的前N个片段结构,构成了Residue2vec的片段库;然后对查询序列进行随机折叠构成初始构象;之后随机选取其中一个长度为n的残基,与片段库中的片段进行二面角的替换;进而比较能量,若能量减小则接收构象,若能量增大则以Metropolis准则接收构象,通过不断迭代最终获得亚稳态构象。本发明查询序列中匹配度较高、预测精度较高。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top