[发明专利]一种基于大间隔最近中心点的蛋白质二级结构的工程预测方法无效

专利信息
申请号: 201010120350.3 申请日: 2010-03-09
公开(公告)号: CN101794351A 公开(公告)日: 2010-08-04
发明(设计)人: 王宽全;杨伟;左旺孟;袁永峰;张宏志 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F19/00 分类号: G06F19/00;G06F17/30
代理公司: 哈尔滨市松花江专利商标事务所 23109 代理人: 牟永林
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 间隔 最近 中心点 蛋白质 二级 结构 工程 预测 方法
【说明书】:

技术领域

发明涉及的是一种基于机器学习的蛋白质二级结构的工程预测方法,特 别涉及一种将大间隔最近中心点方法与多序列比对特征相结合的方法,属于蛋 白质二级结构的工程预测方法领域。

背景技术

随着人类基因组图谱的公布,以及越来越多动物、植物、微生物的基因组 全序列测定的完成,生物科学进入了“后基因组时代”。人类将在了解遗传物 质DNA全部序列的基础上研究和认识生命的奥秘,阐明基因编码产物(蛋白 质)的功能己成为主要研究目标。一系列的研究表明,一种蛋白质能够行使其 特定的生物功能,是由它特定的结构所决定的。因此,了解蛋白质的结构是对 其功能获得彻底理解的先决条件。尽管采用X-ray晶体衍射和核磁共振这两种 实验方法可以测定蛋白质的三维结构,但由于其都具有周期长、成本高、技术 难度大等缺点,使得采用实验方法测定蛋白质结构的速度远远低于由大规模测 序工程生成的蛋白质序列的速度。为了缩小这一差距,采用理论预测蛋白质结 构的方法势在必行。

蛋白质的氨基酸序列决定了它的三级结构,但是直接从氨基酸序列成功地 预测蛋白质三级结构就目前的技术水平而言仍然是一个艰难的任务。于是,本 领域技术人员采用一个折中却非常有效的步骤就是预测蛋白质二级结构,即将 蛋白质序列中的每个氨基酸残基归约为螺旋构象、折叠构象、或是卷曲构象。 蛋白质二级结构预测提供的信息,不仅可用于蛋白质三级结构的从头预测、蛋 白质的互作与功能预测、蛋白质的分析和注释,还可以提高蛋白质折叠识别的 敏感性。

自20世纪60年代以来,已经有越来越多的科研人员致力于蛋白质二级结 构预测的研究并提出了各种各样的预测算法。按照算法的基本思想,它们大体 上可以分为三类:1.基于规则的预测,包括生物规则、统计规则和组合规则。 具有代表性的算法有Chou-Fasman、Lim和GGBSM等。由于这类方法的预测 精度普遍低于70%,目前已极少采用。2.基于图模型的预测。由于图模型方法, 包括隐马尔可夫模型、条件随机场和贝叶斯网等,能够成功地处理序列数据问 题,因此此类方法在蛋白质的二级结构预测中得到了广泛应用。图模型方法是 从生成模型的角度考虑蛋白质二级结构预测问题的。尽管图模型能融入标签的 相关性和长距离信息,但由于蛋白质的二级结构主要是由氨基酸残基间的局部 相互作用决定的,图模型并不适用于蛋白质二级结构的建模,长期的实验表明 它们并不能给出精确的蛋白质二级结构预测。3.基于机器学习的预测,比如神 经网络和支持向量机。早期的机器学习方法主要是基于单序列特征,它们的三 态每残基预测精度只有65%左右。直到1993,Rost和Sander把神经网络方法 和多序列比对特征相结合,使得蛋白质二级结构预测精度突破了70%。随后, Jones通过引入PSSM特征进一步改进了蛋白质二级结构预测精度。目前,预 测精度较好的蛋白质二级结构预测方法都是基于机器学习算法,其中基于集成 神经网络的蛋白质二级结构预测方法的预测精度已经达到了80%左右。此外, 基于支持向量机的预测方法也获得了较好的预测结果。

尽管神经网络或是支持向量机的方法都能获得较高的蛋白质二级结构预 测精度,但是它们都有不可克服的缺点。神经网络具有权值的训练存在局部极 小值的风险,训练结果的好坏显著地依赖初始权值的选择。支持向量机的缺点 是训练蛋白质二级结构预测模型会产生许多支持向量,因此不能快速地预测蛋 白质二级结构。

发明内容

本发明的目的是针对现有蛋白质二级结构的预测方法在采用机器学习算 法时,存在的数据权值存在局部极小值、预测效率低的问题,提供了一种基于 大间隔最近中心点的蛋白质二级结构的工程预测方法。

本发明是通过下述方案予以实现的:一种基于大间隔最近中心点的蛋白质 二级结构的工程预测方法,采用下列步骤实现:

步骤一、下载发布的NCBI nr数据库和PDB格式的蛋白质结构数据,基 于PDB格式的蛋白质结构数据构造非冗余蛋白质二级结构训练数据集;

步骤二、给定目标蛋白质一级序列数据,根据步骤一提供的NCBI nr数据 库为目标蛋白质一级序列中的每个残基构造多序列比对特征向量;

步骤三、基于步骤二中构造的目标蛋白质序列的多序列比对特征向量,调 用大间隔最近中心点算法,获得目标蛋白质的二级结构预测数据,

在步骤三中,所述的大间隔最近中心点算法是通过以下步骤实现的:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010120350.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top