[发明专利]基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法有效
申请号: | 201410842077.3 | 申请日: | 2014-12-30 |
公开(公告)号: | CN104615910B | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 张慧玲;贝振东;魏彦杰 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 随机 森林 预测 膜蛋白 螺旋 相互作用 关系 方法 | ||
1.一种基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法,包括下述步骤:
收集具有确定三维结构的α跨膜蛋白链构建训练集;
基于所述的训练集,分别提取所述α跨膜蛋白链中螺旋上相互作用的残基对和非相互作用的残基对特征信息,使用随机森林算法构建预测模型;
收集用于测试的、具有确定一级结构的目标α跨膜蛋白,提取其α螺旋中的残基对特征信息,基于所述预测模型进行预测;
根据预测结果判断所述目标α跨膜蛋白中的螺旋是否存在相互作用的残基对,所述相互作用的残基对的定义如下:将位于跨膜蛋白α螺旋上的CA-CA原子距离对作为界定残基对相互作用关系的标准,具体的,将所述α跨膜蛋白α螺旋中CA-CA原子距离的残基对设置为相互作用的残基对,将CA-CA原子距离的残基对设置为非相互作用的残基对,α跨膜蛋白中,当两个α螺旋上存在相互作用的残基对时,就认为这两个残基所在的α螺旋存在相互作用关系;
其中,所述α跨膜蛋白链和所述α跨膜蛋白螺旋中的残基对特征,包括下述六类特征:
(1)PSSM特征:PSSM中的每个残基都由一个20维的向量表示,表示20种氨基酸在PSSM相应位置出现的频率;PSSM特征分为两类:第一类是以残基对(i,j)中的残基i和残基j分别为中心取一个大小为7的滑动窗口,即对每个残基对可得到2×7×20=280个PSSM特征;第二类是以残基对(i,j)的中间位置(i+j)/2为中心取一个大小为3的滑动窗口,即可获得3×20=60个PSSM特征,两类PSSM特征的总数为280+60=340个;
(2)残基在α螺旋中相对距离特征:假设p为残基对中的一个残基在长度为l的螺旋上的相对位置,那么残基在α螺旋中相对距离特征就定义为p/l,对于每个残基对可以提取2个该特征;
(3)序列间隔特征:根据α跨膜蛋白中α螺旋一级序列中氨基酸个数,将其划分为九个区间,即<25、25-50、50-75、75-100、100-125、125-150、150-175、175-200和>200,分析残基对在的位置间隔分别位于哪个区间,形成序列间隔特征,对于每个残基对而言,序列间隔特征共9个;
(4)残基类型特征:组成蛋白质的氨基酸共20种,根据氨基酸R基的极性性质可分为酸性氨基酸、碱性氨基酸和中性氨基酸,其中,中性氨基酸又可分为极性氨基酸和非极性氨基酸,根据这4种不同的氨基酸类型,一个残基作用对对应两个氨基酸,可以产生10种不同的组合计为10个残基类型特征;
(5)α螺旋个数特征:根据α跨膜蛋白中所包含的α螺旋个数,可分为2-4、5-7、8-10、>10这4个区间,每个残基对特征向量包含4个该类特征;
(6)序列长度特征:根据α跨膜蛋白中一级序列的长度,可分为<100、100-400、400-800、>800这4个区间,每个残基对特征向量包含4个该类特征,
使用预测模型对目标α跨膜蛋白进行预测的步骤中,由所述目标α跨膜蛋白的一级结构使用软件获取其二级结构,将所述目标α跨膜蛋白的一级结构、二级结构分别进行输入,并获取α螺旋中的残基对特征信息后,将所述α跨膜蛋白螺旋上所有的残基对分别按特征矩阵编号为相应的行,将特征信息构建成特征矩阵相应的列,形成特征矩阵;然后使用所述预测模型中生成的特征矩阵中的各行所表示的残基对进行二分类,将符合预测模型中相互作用的残基对信息的所述残基对作为一类,将符合预测模型中非相互作用的残基对信息的所述残基对作为另一类。
2.如权利要求1所述的基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法,其特征在于,所述训练集中,所述相互作用的残基对和非相互作用的残基对的数量比为1:6。
3.如权利要求1所述的基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法,其特征在于,所述使用训练集构建预测模型的步骤中,对所述随机森林算法的参数进行设置,其中,决策树的数量设置为100。
4.如权利要求1所述的基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法,其特征在于,所述构建训练集的步骤中,选取PDBTM中,α跨膜蛋白中α螺旋个数在2以上、序列相似度小于35%、分辨率小于3.0、且已于2012年或之前三维结构得到确认的95个α跨膜蛋白作为训练集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410842077.3/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用