[发明专利]一种不连续多域蛋白结构组装方法有效
申请号: | 201710684511.3 | 申请日: | 2017-08-11 |
公开(公告)号: | CN107704725B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 张贵军;周晓根;郝小虎;王柳静 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G16B15/20 | 分类号: | G16B15/20 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 连续 蛋白 结构 组装 方法 | ||
一种不连续多域蛋白结构组装方法,首先,利用蛋白质序列穿线比对工具快速搜索蛋白质库,并选出得分最高的多个模板;然后,根据穿线比对的信息将各单域结构精确重叠到模板上,从而提取模板中的方向信息;其次,对重叠得到的结构进行随机旋转和平移操作,并以域和域之间的相互作用和冲突距离来衡量当前结构的质量,同时加入模板控制因子防止组装结构偏移模板的方向,而且加入边界距离因子促使连续和不连续域蛋白的边界充分连接;最后,根据能量选择出多个模板组得到的最优结构。本发明提供一种预测精度较高的不连续多域蛋白结构组装方法。
技术领域
本发明涉及一种生物学信息学、智能优化、计算机应用领域,尤其涉及的是一种不连续多域蛋白的结构组装方法。
背景技术
蛋白质库中超过70%的蛋白为多域蛋白,即一个蛋白包含多个子结构。在这些多域蛋白中,超过40%的蛋白包含一个或多个不连续单域蛋白,例如,在CATH蛋白数据库中,超过15%的蛋白为多域蛋白,其中有超过18%的蛋白包含至少一个不连续域蛋白。对于这些单域蛋白来说,其对应的序列不连续,被分为多个部分,但是对于三维结构来说,虽然被分为多个部分,但是均属于一个域。可以看出,不连续多域蛋白在整个蛋白质库中所占比例较高,因此,如何通过组装的方法来预测这些蛋白的三维结构极其重要。
目前,最常用的多域蛋白的结构组装方法通过对连续单域蛋白和不连续单域蛋白之间的连接区域进行采样,即固定不连续单域蛋白的个部分,从而对各部分与连续单域蛋白之间的连接区域进行采样,从而得到最佳的连接结构。在上述方法中,连接区域采样中采用的能量函数为单域蛋白的结构预测的能量函数,此能量函数虽然对于单域蛋白的结构预测有效,但是,由于单域蛋白之间的作用力、溶剂可及性等能量项与域内有所区别,对于不连续域和连续域之间的连接采样效果不佳,从而导致不连续蛋白的结构预测精度较低。
因此,现有的不连续多域蛋白结构组装方法在预测精度方面存在着缺陷,需要改进。
发明内容
为了克服现有不连续多域蛋白结构组装方法在预测精度较低的不足,本发明提供一种预测精度较高的基于不连续多域蛋白结构组装方法。
本发明解决其技术问题所采用的技术方案是:
一种不连续多域蛋白结构组装方法,所述方法包括以下步骤:
1)输入待组装蛋白的序列信息和各单域的三维结构;
2)设置最大迭代次数Gmax、组装模板数量T、冲突距离阈值dclash和相互作用阈值dcontact;
3)利用蛋白质序列穿线比对工具FFAS3D从蛋白质库中搜索到得分最高的前T个模板蛋白;
4)针对每一个模板蛋白进行如下操作:
4.1)根据FFAS3D序列比对信息将待组装蛋白的各单域重叠到模板上;
4.2)固定不连续单域蛋白,根据以下公式对插入其中间的连续蛋白作平移操作,使得不连续蛋白第一部分的连接点和连续蛋白的连接点之间的距离为冲突距离阈值dclash;
其中,表示不连续域蛋白的第m个Cα原子的第s维坐标,L表示不连续域蛋白,N表示连续域蛋白,L和N仅为区别不连续和连续域蛋白的标记,l为不连续域蛋白的序列长度,为不连续域蛋白的第一部分的最后一个Cα原子的第s维坐标,s=1,2,3,为连续域蛋白的第一个Cα原子的第s维坐标,d为连续域蛋白的第一个Cα原子和不连续域蛋白第一部分的最后一个Cα原子之间的欧氏距离;
4.3)计算当前蛋白的能量,过程如下:
4.3.1)计算连续域蛋白与不连续域蛋白中Cα原子之间的两两距离,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710684511.3/2.html,转载请声明来源钻瓜专利网。