[发明专利]基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法有效

专利信息
申请号: 201410842077.3 申请日: 2014-12-30
公开(公告)号: CN104615910B 公开(公告)日: 2018-08-14
发明(设计)人: 张慧玲;贝振东;魏彦杰 申请(专利权)人: 中国科学院深圳先进技术研究院
主分类号: G06F19/18 分类号: G06F19/18
代理公司: 深圳中一专利商标事务所 44237 代理人: 张全文
地址: 518000 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 随机 森林 预测 膜蛋白 螺旋 相互作用 关系 方法
【权利要求书】:

1.一种基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法,包括下述步骤:

收集具有确定三维结构的α跨膜蛋白链构建训练集;

基于所述的训练集,分别提取所述α跨膜蛋白链中螺旋上相互作用的残基对和非相互作用的残基对特征信息,使用随机森林算法构建预测模型;

收集用于测试的、具有确定一级结构的目标α跨膜蛋白,提取其α螺旋中的残基对特征信息,基于所述预测模型进行预测;

根据预测结果判断所述目标α跨膜蛋白中的螺旋是否存在相互作用的残基对,所述相互作用的残基对的定义如下:将位于跨膜蛋白α螺旋上的CA-CA原子距离对作为界定残基对相互作用关系的标准,具体的,将所述α跨膜蛋白α螺旋中CA-CA原子距离的残基对设置为相互作用的残基对,将CA-CA原子距离的残基对设置为非相互作用的残基对,α跨膜蛋白中,当两个α螺旋上存在相互作用的残基对时,就认为这两个残基所在的α螺旋存在相互作用关系;

其中,所述α跨膜蛋白链和所述α跨膜蛋白螺旋中的残基对特征,包括下述六类特征:

(1)PSSM特征:PSSM中的每个残基都由一个20维的向量表示,表示20种氨基酸在PSSM相应位置出现的频率;PSSM特征分为两类:第一类是以残基对(i,j)中的残基i和残基j分别为中心取一个大小为7的滑动窗口,即对每个残基对可得到2×7×20=280个PSSM特征;第二类是以残基对(i,j)的中间位置(i+j)/2为中心取一个大小为3的滑动窗口,即可获得3×20=60个PSSM特征,两类PSSM特征的总数为280+60=340个;

(2)残基在α螺旋中相对距离特征:假设p为残基对中的一个残基在长度为l的螺旋上的相对位置,那么残基在α螺旋中相对距离特征就定义为p/l,对于每个残基对可以提取2个该特征;

(3)序列间隔特征:根据α跨膜蛋白中α螺旋一级序列中氨基酸个数,将其划分为九个区间,即<25、25-50、50-75、75-100、100-125、125-150、150-175、175-200和>200,分析残基对在的位置间隔分别位于哪个区间,形成序列间隔特征,对于每个残基对而言,序列间隔特征共9个;

(4)残基类型特征:组成蛋白质的氨基酸共20种,根据氨基酸R基的极性性质可分为酸性氨基酸、碱性氨基酸和中性氨基酸,其中,中性氨基酸又可分为极性氨基酸和非极性氨基酸,根据这4种不同的氨基酸类型,一个残基作用对对应两个氨基酸,可以产生10种不同的组合计为10个残基类型特征;

(5)α螺旋个数特征:根据α跨膜蛋白中所包含的α螺旋个数,可分为2-4、5-7、8-10、>10这4个区间,每个残基对特征向量包含4个该类特征;

(6)序列长度特征:根据α跨膜蛋白中一级序列的长度,可分为<100、100-400、400-800、>800这4个区间,每个残基对特征向量包含4个该类特征,

使用预测模型对目标α跨膜蛋白进行预测的步骤中,由所述目标α跨膜蛋白的一级结构使用软件获取其二级结构,将所述目标α跨膜蛋白的一级结构、二级结构分别进行输入,并获取α螺旋中的残基对特征信息后,将所述α跨膜蛋白螺旋上所有的残基对分别按特征矩阵编号为相应的行,将特征信息构建成特征矩阵相应的列,形成特征矩阵;然后使用所述预测模型中生成的特征矩阵中的各行所表示的残基对进行二分类,将符合预测模型中相互作用的残基对信息的所述残基对作为一类,将符合预测模型中非相互作用的残基对信息的所述残基对作为另一类。

2.如权利要求1所述的基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法,其特征在于,所述训练集中,所述相互作用的残基对和非相互作用的残基对的数量比为1:6。

3.如权利要求1所述的基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法,其特征在于,所述使用训练集构建预测模型的步骤中,对所述随机森林算法的参数进行设置,其中,决策树的数量设置为100。

4.如权利要求1所述的基于随机森林预测α跨膜蛋白的螺旋相互作用关系的方法,其特征在于,所述构建训练集的步骤中,选取PDBTM中,α跨膜蛋白中α螺旋个数在2以上、序列相似度小于35%、分辨率小于3.0、且已于2012年或之前三维结构得到确认的95个α跨膜蛋白作为训练集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410842077.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top