[发明专利]基于子空间融合的蛋白质‑维他命绑定位点预测方法有效
申请号: | 201410164632.1 | 申请日: | 2014-04-22 |
公开(公告)号: | CN103955628B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 胡俊;於铉;何雪;李阳;沈红斌;杨静宇 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F19/10 | 分类号: | G06F19/10 |
代理公司: | 南京理工大学专利中心32203 | 代理人: | 朱显国 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于子空间融合的蛋白质‑维他命绑定位点预测方法,包括特征抽取与特征组合分别利用PSI‑BLAST、PSIPRED和蛋白质‑维他命绑定位点倾向表抽取蛋白质的进化信息、二级结构信息以及绑定倾向性信息,使用滑动窗口与串行组合将蛋白质序列中的氨基酸残基转换为向量形式表示;使用多种特征选择算法分别对原始特征空间进行多次特征选择;每次特征选择得到的特征子集构成一个特征子空间,构建多个特征子空间;对所得的每个特征子空间,训练一个SVM分类器;使用加权平均的分类器融合方式对训练完毕的多个SVM分类器进行融合;基于融合后的SVM预测器对待预测蛋白质进行蛋白质‑维他命绑定位点预测。本发明的预测方法预测速度快、预测精度高。 | ||
搜索关键词: | 基于 空间 融合 蛋白质 维他命 定位 预测 方法 | ||
【主权项】:
一种基于子空间融合的蛋白质‑维他命绑定位点预测方法,其特征在于,包括以下步骤:步骤1、特征抽取与特征组合,即分别利用PSI‑BLAST算法、PSIPRED算法抽取蛋白质的进化信息特征与二级结构信息特征,以及根据蛋白质‑维他命绑定位点倾向表抽取蛋白质的绑定倾向性信息特征,前述三种特征组成原始特征空间;然后使用滑动窗口与串行组合方式将蛋白质序列中的氨基酸残基转换为向量形式表示;步骤2、使用特征选择算法即Joint Laplacian Feature Weights Learning算法、Fisher Score算法以及Laplacian Score算法,分别对原始特征空间进行多次特征选择;每次特征选择得到的特征子集构成一个特征子空间,从而构建多个特征子空间;步骤3、对步骤2所得的每个特征子空间,训练一个SVM分类器;步骤4:使用加权平均的分类器融合方式对训练完毕的多个SVM分类器进行融合;以及步骤5、基于融合后的SVM预测器对待预测蛋白质进行蛋白质‑维他命绑定位点预测;其中,在所述步骤4中,使用加权平均方法对步骤3所训练得到的三个不同特征子空间的SVM预测器进行融合,其包括:令ω1和ω2分别表示绑定位点类和非绑定位点类,S1、S2和S3分别表示三个不同特征子空间下的SVM预测器,表示评估样本集合,用于确定子空间对应的SVM模型的权重,其中评估样本集合的氨基酸残基是已知其类别的;对于每一个xi所表示的样本特征,S1、S2和S3将会输出三个2维的向量(s1,1(xi),s1,2(xi))T、(s2,1(xi),s2,2(xi))T和(s3,1(xi),s3,2(xi))T,每个2维向量的两个元素分别表示xi属于ω1和ω2的程度且两个元素和为1,故对于评估样本集合分别可以得到在S1、S2和S3上的预测结果矩阵:Ri=si,1(x1)si,2(x1)si,1(x2)si,2(x2)......si,1(xMeva)si,2(xMeva)T,i=1,2,3---(19)]]>首先,根据的真实类别构造目标结果矩阵:若yi=ω1则pi=1,否则pi=0 (20)其次,计算每个特征子空间下的SVM分类器的误差:Ei=||Rtrue-Ri||22,i=1,2,3---(21)]]>再次,根据每个特征子空间SVM预测器在评估集合上的预测误差构造不同子空间SVM预测器的权重:wi=(Meva-Ei)Σk=13(Meva-Ek),i=1,2,3---(22)]]>其中,Meva表示完全被分错时的误差;最后,根据在评估样本集合上计算得到权重集成不同子空间的SVM预测器:S=Σi=13wi·Si---(23)]]>得到如上式(23)融合后的SVM预测器。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410164632.1/,转载请声明来源钻瓜专利网。
- 上一篇:双球式组合三通阀
- 下一篇:多叶片式天燃气管路控制阀
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用