[发明专利]基于加权组成位置向量和支持向量机的蛋白质结构类预测方法在审
申请号: | 201510429363.1 | 申请日: | 2015-07-21 |
公开(公告)号: | CN105205343A | 公开(公告)日: | 2015-12-30 |
发明(设计)人: | 邹小勇;周喜斌;李占潮;戴宗 | 申请(专利权)人: | 广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学 |
主分类号: | G06F19/12 | 分类号: | G06F19/12 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 528399 广东省佛山市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 加权 组成 位置 向量 支持 蛋白质 结构 预测 方法 | ||
技术领域
本发明属于蛋白质结构预测技术领域,更具体地,涉及一种基于加权组成位置向量的蛋白质结构类预测方法。
背景技术
蛋白质的三维结构十分复杂,只有折叠成正确的空间结构才能行使其生物功能。蛋白质整体折叠模式(foldingpattern)可以通过蛋白质结构类来进行描述,主要包括四种,即全a、全b、a/b和a+b。其中全a类中主要包含的二级结构单元为a螺旋(a-helix),全b类主要包含的二级结构单元为b折叠(b-sheet),a/b类同时包含a螺旋和b折叠,并且b折叠片的走向主要为平行,a+b类也同时包含a螺旋和b折叠,但是b折叠片的走向主要为反向平行。结构类是蛋白质的主要性质之一,对于蛋白质结构类的预测,将有助于提高蛋白质二级结构和三级结构的预测率,对于研究蛋白质结构与功能关系,具有重要的理论意义和实用价值。
在蛋白质结构类预测模型的构建中,蛋白质序列表征方法是影响模型预测性能的关键。氨基酸组成是一种简单、有效的蛋白质序列表征方法,通过氨基酸组成,蛋白质序列可以表征为一个20维的离散向量。事实上,许多预测方法都是基于蛋白质的氨基酸组成提出的。然而,用氨基酸组成来表征蛋白质序列会丢失氨基酸残基之间的顺序信息,氨基酸组成表征方法无法区分氨基酸组成相同而排列次序不同的蛋白质序列,限制了预测方法性能的提高。因此,近年来研究者们又提出了许多新的蛋白质序列表征方法,包括:伪氨基酸组成、氨基酸对耦合组成、多肽组成、功能域组成以及其他的蛋白质表征方法。随着后基因组时代的来临,序列已知的蛋白质数目以及结构类已知的蛋白质数目之间的差距正在不断扩大。为了缩小这种差距,提高蛋白质结构类的预测率,建立新的蛋白质表征方法属研究热点,发展自动、可靠的预测方法意义重大。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种新的简单、快速、灵敏的蛋白质序列表征方法——加权组成位置向量,在组成位置向量的基础上,引入加权思想,与支持向量机结合,采用直接多类分类策略,对蛋白质结构类预测进行了研究,有望应用于其它蛋白质预测领域。该表征方法不仅含有氨基酸组成的信息,而且还包含了蛋白质序列中每个氨基酸残基的位置信息,并且与蛋白质序列之间是一一对应的函数关系,该方法通过调节加权因子可以明显地提高预测精度,预测结果优于文献报道的多数方法。
本发明的目的是提供一种基于加权组成位置向量的蛋白质结构类预测方法。
本发明上述目的是通过以下技术方案予以实现:
一种基于加权组成位置向量和支持向量机的蛋白质结构类预测方法,包括以下步骤:
S1.选取或构建蛋白质结构类标准数据集;
S2.用加权组成位置向量的蛋白质序列表征方法表征步骤S1数据集中的每一条蛋白质序列,加权组成位置向量可以表示如下:
X=(c1,c2,…,c20,c1,c2,…,c20)T
X是40维特征向量,前20个元素是氨基酸组成,后20个元素是加权的位置向量,计算如下:
式中,w为权重因子,为一大于0的整数;
L是蛋白质序列的长度;
l是第i种氨基酸在蛋白质序列中出现的次数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学,未经广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510429363.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种指纹识别方法
- 下一篇:一种基于客户诉求的电力配网改造需求模型构建方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用