[发明专利]一种统计计算固有无序蛋白多态结构的方法有效

专利信息
申请号: 201610850424.6 申请日: 2016-09-26
公开(公告)号: CN106548040B 公开(公告)日: 2019-04-16
发明(设计)人: 何建锋 申请(专利权)人: 北京理工大学
主分类号: G16B15/20 分类号: G16B15/20
代理公司: 北京理工正阳知识产权代理事务所(普通合伙) 11639 代理人: 王民盛
地址: 100081 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种统计计算固有无序蛋白多态结构的方法,属于蛋白质非平衡动力学与多态结构研究领域。通过对固有无序蛋白进行上千次的折叠或非平衡动力学模拟,统计分析获得固有无序蛋白的结构图景、聚类和特性为主的重要信息,步骤为:1获取蛋白质实验结构;2计算中心碳原子链接形成的键角和扭转角;3构建蛋白质拟合模型;4模拟细胞环境变化导致固有无序蛋白的构型变化过程;5对蛋白质进行千次以上加热‑冷却模拟循环,确定具有多态结构的低温值和高温值;6获得提纯的末态构型数据组;7归纳和分析固有无序蛋白的结构聚类;8可视化固有无序蛋白结构聚类的特征构型。本发明解决了传统理论及实验方法难以同时捕捉固有无序蛋白多态结构的难题。
搜索关键词: 一种 统计 计算 固有 无序 蛋白 结构 方法
【主权项】:
1.一种统计计算固有无序蛋白多态结构的方法,其特征在于:通过对固有无序蛋白进行上千次的折叠或非平衡动力学模拟,统计分析获得固有无序蛋白的结构图景、聚类和特性为主的重要信息;为实现上述目的,一种统计计算固有无序蛋白多态结构的方法,步骤如下:步骤(1):获取蛋白质实验结构;其中,蛋白质实验结构过程可以从蛋白质数据银行PDB获取,且获取固有无序蛋白;蛋白质实验结构是X‑Ray晶体衍射或NMR解析的结构两种中的一种;步骤(2):采用步骤(1)的蛋白质实验结构中心碳原子坐标数据,计算中心碳原子链接形成的键角和扭转角;其中步骤(2)中,中心碳原子记为Cα,中心碳原子的坐标记为(x,y,z),键角与扭转角,记为(κ0i0i);i代表从氮末端开始的第i个氨基酸;步骤(3):构建蛋白质拟合模型;其中,蛋白质等同于步骤(2)中的中心碳原子链;步骤(3),具体为:步骤(3).1根据步骤(2)输出将中心碳原子链分为多个片段,并对每个片段搜索能量函数的极小值,得到每个片段的拟合键角与扭转角及相应能量函数的参数值;步骤(3).2将步骤(3).1中的每个片段顺次拼接在一起,再次搜索能量函数的全局极小,获得若干拟合结构及最优结构;步骤(3).1和步骤(3).2中的能量函数表述为如下公式(1):其中,κi为拟合键角,τi为扭转角;对上述公式(1)取极小值得到的拟合键角记为κi,扭转角记为τi,能量函数参数值,记为(c,m,b,d,e,q);i与步骤(2)中氨基酸的序号一致;N代表氨基酸的总数;其中,步骤(3).2中确定了参数值的能量函数描述蛋白质的自由能,得到的拟合键角与扭转角描述构建的能量极小构象,简记为拟合结构;最优结构通过将此组新的拟合键角与扭转角构建的拟合结构与步骤(1)的蛋白质实验结构之间的中心碳原子Cα的均方根偏差(RMSD)比较得到;步骤(4):模拟细胞环境变化导致固有无序蛋白的构型变化过程;步骤(4)中,模拟固有无序蛋白的构型变化过程可采用模拟退火算法,具体为:细胞环境变化导致固有无序蛋白的构型变化过程是一个非平衡动力学过程,由步骤(3).2输出的拟合结构中的拟合键角与扭转角作为蛋白质的初始状态解,能量函数,即公式(1),用来计算每一Monte Carlo步的蛋白质能量,对应此Monte Carlo步的新解的接受准则采用Metroplis准则;Monte Carlo步数根据蛋白质的长度进行合理设置,模拟退火算法中的低温和高温值由实际模拟情况设定;固有无序蛋白从部分结构化到完全无结构化对应着由低温到高温的加热过程,从完全无结构化到部分结构化对应着由高温到低温的冷却过程;低温,记为T1;高温,记为T2;步骤(5):基于步骤(3)的拟合结构,重复步骤(4)对蛋白质进行千次以上的加热‑冷却模拟,称为加热‑冷却模拟循环,确定具有多态结构的低温值和高温值;其中,加热‑冷却模拟指的是模拟蛋白质从部分结构化到完全无结构化后回到部分结构化的非平衡动力学过程,步骤(5)中的每一次加热‑冷却模拟循环过程为:步骤(5).1将蛋白质的拟合结构在低温做N0步热平衡;步骤(5).2用N1步将蛋白质体系线性地从低温加热到高温;步骤(5).3在高温处对蛋白质进行N2步的平衡热浴,确保蛋白质充分地打开和热平衡;步骤(5).4接下来的N3步将蛋白质体系线性地从高温冷却回低温;步骤(5).5最后,在低温做同样的N0步热平衡,使蛋白质冷却充分;在步骤(5)确定具有多态结构的低温值和高温值,具体为:计算加热‑冷却模拟循环中的中心碳原子Cα原子RMSD、回旋半径Rg和体系能量E,观察RMSD和Rg相对于平均值的波动,以低温时RMSD和Rg偏差小于0.1埃为标准确定低温的T1值;一次加热‑冷却模拟循环后,初末态构象之间的Cα原子RMSD小于1.0埃,认为蛋白质重新折叠回去;选择不同高温值进行反复测试,统计所有加热‑冷却循环后蛋白质折叠回去所占的百分比,比率约为50%的高温值为选定的T2值;步骤(6):提纯步骤(5)加热‑冷却模拟循环后的蛋白质结构,获得提纯的末态构型数据组;步骤(6)经过步骤(5)千次以上加热‑冷却模拟循环后,通过体积排斥法提纯加热‑冷却循环后的蛋白质结构,即末态构型数据组,具体为:将步骤(5)所有加热‑冷却模拟循环后的蛋白质末态构型输出,以pdb文件的标准格式存储,一个文件存放一个末态构型;采用侧链安装工具PULCHRA软件或SCWRL4软件中的一种,给所有末态构型安装侧链,得到全原子构型;计算蛋白质分子中任意一对非成键原子的间距,任意原子对间距都大于等于设定值时,视该构型为合理构型而保留;如果存在原子对间距小于设定值,则去掉该构型;其中,设定值范围在1.2‑1.8埃;步骤(7):由步骤(6)提纯的末态构型数据组,归纳和分析固有无序蛋白的结构聚类,具体为:从末态构型数据组中读取Cα原子坐标,计算RMSD、Rg、末端距Dee和体系能量E;体系能量E由步骤(3)拟合的能量函数,将末态构型的键角与扭转角值直接代入计算;Dee是蛋白质氮末端与碳末端的Cα原子距离;获得所有末态构型的RMSD、Rg、末端距Dee和体系能量E后,画柱状分布图或者Rg‑Dee、RMSD‑Rg、Rg‑E二维图或者RMSD‑Rg‑E、Dee‑Rg‑E三维图,由这些图展现固有无序蛋白的结构分布的局域性,揭示其结构聚类;步骤(8):可视化固有无序蛋白结构聚类的特征构型,利用步骤(8)末态构型RMSD、Rg、Dee、E后分布图,找到末态构型的分布区域;其特点是,在分布图中,末态构型的对应点聚集在M个狭小的区间,每个聚集区之间有一定的间隔且分布点相对较多;在每个聚集区随机挑选K个点,找到其对应的结构;用VMD和Jmol为主的蛋白质可视化软件,显示出这些构型的三维结构并进行结构特性分析;其中,M值为大于1的整数;K值大于等于1的整数;至此,从步骤(1)到步骤(8),完成了一种统计计算固有无序蛋白多态结构的方法。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610850424.6/,转载请声明来源钻瓜专利网。

同类专利
  • 一种双重分布估计引导的蛋白质构象空间搜索方法-201710148984.1
  • 张贵军;郝小虎;谢腾宇;周晓根;王柳静 - 浙江工业大学
  • 2017-03-14 - 2019-07-30 - G16B15/20
  • 一种双重分布估计引导的蛋白质构象空间搜索方法,同时启动多条Monte Carlo轨迹,并根据当前所有轨迹个体信息构建能量分布概率模型和历史接受概率模型,根据两个概率模型选择一条Monte Carlo轨迹执行下一次搜索,使得搜索过程主要向能量更低的区域进行,并以一定的概率在高能量区域进行搜索,在一定程度上克服了能量模型不精确的问题,最终得到一系列近天然态构象。本发明在蛋白质结构预测中应用,可以得到预测精度较高、复杂度较低的构象。
  • 一种核磁共振氟谱理论计算判定手性胺绝对构型的方法-201910339186.6
  • 杨士伟;宋玲;边广岭 - 中国科学院福建物质结构研究所
  • 2019-04-25 - 2019-07-23 - G16B15/20
  • 本发明公开了一种利用理论计算核磁共振氟谱并与实验数值相比较来判定手性胺化合物绝对构型的方法。该方法用于判定手性胺类化合物绝对构型的主要特征在于:首先通过理论计算氟谱方法获得具有最稳定构象的非对映体酰胺化合物的两种构型的理论计算氟谱化学位移差值Δδα‑FR,S,然后再利用核磁共振仪氟谱获得非对映体酰胺化合物的化学位移差值Δδα‑FR,S,通过比较这两种方法获得的Δδα‑FR,S正负符号,即可准确地判定待测样品的绝对构型。该方法适用范围包括手性胺、氨基醇、氨基酸酯多种手性化合物的绝对构型的判定,实施方式简单,操作方便、准确度高,是一种简洁高效的判定绝对构型的新方法。
  • 一种RNA二级结构的预测方法-201910285287.X
  • 孙婷婷;苏静杰 - 浙江科技学院
  • 2019-04-10 - 2019-07-12 - G16B15/20
  • 本发明公开了一种RNA二级结构的预测方法,本发明通过对PDB数据集进行数据预处理,将其分为RNA一级序列数据集和RNA二级结构数据集;再对RNA一级序列数据集中的RNA一级序列进行计算机编码处理,将编码后的RNA一级序列作为特征输入至基于监督学习算法建立的机器学习模型,得到一个目标函数,并将RNA二级结构数据集作为机器学习模型的输出标签,对机器学习模型进行训练和测试;最后利用训练和测试后的机器学习模型进行RNA二级结构预测。本发明采用监督学习算法,利用人工智能的方法对RNA二级结构进行预测,大大的提高了预测效率,并且预测结果较为准确。
  • 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法-201610845314.0
  • 张贵军;周晓根;郝小虎;王柳静;俞旭锋;徐东伟;李章维 - 浙江工业大学
  • 2016-09-23 - 2019-07-05 - G16B15/20
  • 一种基于抽象凸估计的多阶段差分进化蛋白质结构预测方法,首先,计算当前种群中各构象个体到新构象的距离,并根据距离进行升序排列;然后,选取新构象个体的部分邻近构象个体抽象凸下界估计支撑面,以获取新构象个体的能量下界估计值;其次,计算所有新构象个体的能量下界估计值与实际能量值之间的平均估计误差,并根据平均估计误差的变化将整个算法分为多个优化阶段;最后,根据上一次迭代中的平均估计误差判断当前迭代所处的阶段,并对各阶段设计不同的策略生成新构象个体。本发明提出一种预测精度高、计算代价低的基于群体抽象凸估计的多阶段差分进化蛋白质结构预测方法。
  • 基于NGA-TS算法的蛋白质结构预测方法-201610144174.4
  • 周昌军;魏雪;郑学东;王宾 - 大连大学
  • 2016-03-11 - 2019-04-26 - G16B15/20
  • 本发明涉及蛋白质结构预测领域,涉及了一种基于小生境遗传和算法禁忌搜索算法的结合算法的蛋白质结构预测方法。该方法将禁忌搜索算法引入小生境遗传算法中来解决蛋白质结构预测问题,并对小生境遗传算法过程中的交叉、变异、小生境淘汰进行了一定的改进。从实验得出的数据和与其他方法的比较结果来看,该方法可以更加全面的搜索出相应的蛋白质最小自由能量值,从而能得到更稳定的蛋白质结构,说明了本方法在解决蛋白质结构预测问题上是有效的。
  • 一种局部增强的多模态差分进化蛋白质结构从头预测方法-201610846348.1
  • 张贵军;郝小虎;王柳静;周晓根;陈凯;谢腾宇;李章维 - 浙江工业大学
  • 2016-09-23 - 2019-04-23 - G16B15/20
  • 一种局部增强的多模态差分进化蛋白质结构从头预测方法,包括以下步骤:在差分进化算法框架下,采用Rosetta score3粗粒度知识能量模型来降低构象空间维数;将构象种群划分为多个模态,以保持种群多样性,采用片段组装技术来提高预测精度,同时采用蒙特卡洛算法对种群做增强;在种群进化后期,使用抽象凸估计技术,建立模态的下界估计模型,构建广义下降方向,对模态内个体做局部增强,以得到更为优良的局部构象;结合差分进化算法较强的全局搜索能力,可以对构象空间进行更为有效的搜索。本发明基于差分进化算法,提出一种构象空间搜索维数较低、收敛速度较快、预测精度较高的局部增强的多模态差分进化蛋白质结构从头预测方法。
  • 一种统计计算固有无序蛋白多态结构的方法-201610850424.6
  • 何建锋 - 北京理工大学
  • 2016-09-26 - 2019-04-16 - G16B15/20
  • 本发明涉及一种统计计算固有无序蛋白多态结构的方法,属于蛋白质非平衡动力学与多态结构研究领域。通过对固有无序蛋白进行上千次的折叠或非平衡动力学模拟,统计分析获得固有无序蛋白的结构图景、聚类和特性为主的重要信息,步骤为:1获取蛋白质实验结构;2计算中心碳原子链接形成的键角和扭转角;3构建蛋白质拟合模型;4模拟细胞环境变化导致固有无序蛋白的构型变化过程;5对蛋白质进行千次以上加热‑冷却模拟循环,确定具有多态结构的低温值和高温值;6获得提纯的末态构型数据组;7归纳和分析固有无序蛋白的结构聚类;8可视化固有无序蛋白结构聚类的特征构型。本发明解决了传统理论及实验方法难以同时捕捉固有无序蛋白多态结构的难题。
  • 一种基于基因本体信息的蛋白质序列表示方法-201710071092.6
  • 肖绚;程翔 - 景德镇陶瓷大学
  • 2017-02-09 - 2019-04-09 - G16B15/20
  • 本发明涉及一种新的基于基因本体信息的蛋白质序列表示方法,首先使用BLAST程序搜索Swiss‑Prot数据库找到蛋白质序列P所有的相似蛋白质序列,将训练数据集中所有蛋白质输入到GO数据库中,搜寻每个蛋白质所具有的GO本体信息;然后在基因本体库中搜寻P蛋白质所具有的标注基因本体信息;根据预测问题具有的M个标签,将P蛋白质定义为M个元素的离散向量。本方法通过将序列集中的蛋白质GO信息,融合成新的蛋白质P的向量描述,使得采用GO方法维度大大降低,用于蛋白质亚细胞多标签定位预测和抗菌肽功能多标签预测中,能明显提高相关预测器的预测成功率,具有广阔的运用前景。
  • 一种基于量子进化算法的蛋白质构象空间优化方法-201611003479.X
  • 张贵军;郝小虎;周晓根;王柳静;李章维 - 浙江工业大学
  • 2016-11-15 - 2019-01-29 - G16B15/20
  • 一种基于量子进化算法的蛋白质构象空间优化方法,包括以下步骤:基于量子进化算法框架,以Rosetta Score3为优化目标函数,基于氨基酸序列粗粒度表达模型,将能量计算模型转换为二面角优化空间能量模型;采用实相位角编码方式对氨基酸序列的二面角表达个体进行编码,通过片段组装执行量子变异操作,以提高预测精度,应用量子旋转门对种群个体进行量子更新,以达到局部调整角度的目的,通过迭代的进化过程,算法将产生能量较低,结构合理的蛋白质构象。本发明在蛋白质结构预测应用中能够,可以快速的得到预测精度较高构象。
  • 一种基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法-201610884824.9
  • 张贵军;周晓根;王柳静;郝小虎;俞旭锋;徐东伟;李章维 - 浙江工业大学
  • 2016-10-10 - 2019-01-22 - G16B15/20
  • 一种基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法,首先,根据随机选择的构象个体、当前目标构象个体和能量值最低的构象构体生成三个不同的新构象个体;然后,分别计算当前种群中各构象个体到各新构象个体的距离,并根据距离进行升序排列;其次,计算离各新构象个体最近的部分构象个体的抽象凸支撑面,从而计算各新构象个体的能量估计值;最后,比较各新构象个体能量估计值,从而选取能量估计值最低的新构象个体进行能量函数评价。本发明提出一种预测精度高、搜索效率高的基于局部抽象凸支撑面的多策略群体蛋白质结构预测方法。
  • 一种基于深度学习的蛋白质结构预测方法-201610735964.X
  • 张贵军;俞旭锋;周晓根;郝小虎;王柳静 - 浙江工业大学
  • 2016-08-26 - 2019-01-22 - G16B15/20
  • 一种基于深度学习Residue2vec的蛋白质结构预测方法,给定输入序列信息,将PDB网站上已知的蛋白质结构看成语料库进行训练,将结构已知的蛋白质分割成长度为n的残基,通过CBOW模型结合Huffman编码,获取每个残基在向量空间中的表示,通过计算残基向量之间的距离来判断残基间的相似性,从而获取查询序列每个残基位置上的前N个片段结构,构成了Residue2vec的片段库;然后对查询序列进行随机折叠构成初始构象;之后随机选取其中一个长度为n的残基,与片段库中的片段进行二面角的替换;进而比较能量,若能量减小则接收构象,若能量增大则以Metropolis准则接收构象,通过不断迭代最终获得亚稳态构象。本发明查询序列中匹配度较高、预测精度较高。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top