[发明专利]基于子空间融合的蛋白质‑维他命绑定位点预测方法有效
申请号: | 201410164632.1 | 申请日: | 2014-04-22 |
公开(公告)号: | CN103955628B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 胡俊;於铉;何雪;李阳;沈红斌;杨静宇 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F19/10 | 分类号: | G06F19/10 |
代理公司: | 南京理工大学专利中心32203 | 代理人: | 朱显国 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 空间 融合 蛋白质 维他命 定位 预测 方法 | ||
技术领域
本发明涉及生物信息学蛋白质-维他命相互作用领域,具体而言涉及一种基于子空间融合的蛋白质-维他命绑定位点预测方法。
背景技术
蛋白质与维他命之间的相互作用在新陈代谢中起到了至关重要的作用,是生命活动中普遍存在且不可或缺的。通过生物实验的方法来确定蛋白质与维他命之间的绑定位点需要耗费大量的时间和资金,并且效率较低。随着测序技术的飞速发展和人类结构基因组的不断推进,蛋白质组学中已经累积了大量未进行与维他命绑定位点标定的蛋白质序列。因此应用生物信息学的相关知识,研发能够直接从蛋白质序列出发进行蛋白质-维他命绑定位点快速且准确的智能预测方法有着迫切需求,且对于发现和认识蛋白质结构和生理功能有着重要的意义。
目前,针对预测蛋白质-维他命绑定位点的计算模型还很欠缺。目前仅仅发现一种专门设计用来进行蛋白质-维他命绑定位点预测的计算模型,即VitaPred。VitaPred是世界上第一个专门设计用来进行蛋白质-维他命绑定位点定位的预测器(B.Panwar,S.Gupta,and G.P.S.Raghava,“Prediction of vitamin interacting residues in a vitamin binding protein using evolutionary information,”BMC Bioinformatics,vol.14,Feb7,2013)。VitaPred是一种可以预测蛋白质与不同种类维他命(维他命A、维他命B、维他命B6等)的预测器。由于不同的维他命种类之间存在着差异性,所以VitaPred构造了4个非冗余的数据集合,分别是:含有187条与维他命有绑定关系的蛋白质(这个数据集合没有区分维他命的种类)、含有31条与维他命A有绑定关系的蛋白质、含有141条与维他命B有绑定关系的蛋白质、以及含有71条与维他命B6有绑定关系的蛋白质。VitaPred通过抽取氨基酸残基的位置特异性得分矩阵所表示的进化信息特征,然后输入SVM分类模型来判定一个氨基酸残基是否属于蛋白质维他命绑定位点。此外在,VitaPred所对应的论文中还尝试其他的特征及其组合与SVM结合的方法去预测蛋白质-维他命绑定位点,但是其预测精度以及其扩展性都没有进化信息特征与SVM结合的方法好,所以VitaPred的方法就代表进化信息特征与SVM结合的预测方法。
然而,综合分析这个仅有的预测模型,其对蛋白质与不同种类维他命绑定位点预测问题都是用同一个特征子空间下的相同方法,从而导致的可解释性较差的问题有待克服;且可以发现预测精度距离实际应用还有较大差距,迫切需要进一步提高。
发明内容
为解决上述单个多维度特征空间中有互斥特征而导致预测精度距离实际应用差距较大且可解释性较差的缺点,本发明的目的在于提出一种预测速度快、预测精度高的基于子空间融合的蛋白质-维他命绑定位点预测方法。
为达成上述目的,本发明所采用的技术方案如下:
一种基于子空间融合的蛋白质-维他命绑定位点预测方法,包括以下步骤:
步骤1、特征抽取与特征组合,即分别利用PSI-BLAST算法、PSIPRED算法抽取蛋白质的进化信息特征与二级结构信息特征,以及根据蛋白质-维他命绑定位点倾向表抽取蛋白质的绑定倾向性信息特征,前述三种特征组成原始特征空间;然后使用滑动窗口与串行组合方式将蛋白质序列中的氨基酸残基转换为向量形式表示;
步骤2、使用特征选择算法即Joint Laplacian Feature Weights Learning算法、Fisher Score算法以及Laplacian Score算法,分别对原始特征空间进行多次特征选择;每次特征选择得到的特征子集构成一个特征子空间,从而构建多个特征子空间;
步骤3、对步骤2所得的每个特征子空间,训练一个SVM分类器;
步骤4:使用加权平均的分类器融合方式对训练完毕的多个SVM分类器进行融合;以及
步骤5、基于融合后的SVM预测器对待预测蛋白质进行蛋白质-维他命绑定位点预测。
进一步的实施例中,所述步骤1中,对于训练蛋白质的特征抽取和串行组合包括以下步骤:
步骤1-1、对于一个由l个氨基酸残基组成的蛋白质,通过PSI-BLAST算法获取其位置特异性得分矩阵,该矩阵为一个l行20列的矩阵,从而将蛋白质一级结构信息(即进化信息)转换为矩阵形式表示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410164632.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:双球式组合三通阀
- 下一篇:多叶片式天燃气管路控制阀
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用