[发明专利]一种人类蛋白质亚细胞位置预测方法在审

专利信息
申请号: 201710204499.1 申请日: 2017-03-31
公开(公告)号: CN106778070A 公开(公告)日: 2017-05-31
发明(设计)人: 沈红斌;周航 申请(专利权)人: 上海交通大学
主分类号: G06F19/18 分类号: G06F19/18;G06F19/24
代理公司: 上海伯瑞杰知识产权代理有限公司31227 代理人: 孟旭彤
地址: 200240 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 人类 蛋白质 细胞 位置 预测 方法
【权利要求书】:

1.一种人类蛋白质亚细胞位置预测方法,基于人类蛋白质序列预测蛋白质亚细胞位置,其特征在于,包括以下步骤:

第一步:利用人类蛋白质序列信息分别提取序列全长,序列N端,C端多个蛋白质序列片段的残基统计特征,其中包括氨基酸组成成分特征和利用蛋白质同源信息所获得的特异性打分矩阵特征并对该特征进行归一化处理,在综合这两个特征之后使用Correlation-based Feature Selection这种有监督的特征选择算法进行降维;

第二步:通过提取蛋白质数据库中所有人类蛋白质的GO特征,利用GOSSTO获取GO(BP,MF,CC)特征空间三个相似度矩阵;

第三步:通过blast方法在Swiss-Prot数据库中搜索同源蛋白,提取所述同源蛋白的GO特征,同时用相同的方法获取训练集中蛋白质的GO特征;

第四步:将蛋白质GO特征的三个部分(BP,MF,CC)通过一元组,二元组,三元组划分为7个部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC);

第五步:通过蛋白质GO特征的相关性,分成七个部分来计算两个蛋白质的相关性,并通过参数优化,提取训练集中十个相关性高的蛋白质做有权值的KNN方法,获得该蛋白质在每个亚细胞位置上的概率值;

第六步:通过rps-blast来获得Swiss-Prot数据库中所有人类蛋白质的保守域特征,并通过信息差计算特征之间的相关性,得到保守域特征相似度矩阵,然后通过rps-blast来获得目标蛋白质的保守域特征来计算两个蛋白质的相关性,并通过参数优化,提取训练集中十个相关性高的蛋白质做有权值的KNN方法,获得该蛋白质在每个亚细胞位置上的概率值;

第七步:融合所获得的序列特征,GO七个部分的概率特征,保守域概率特征,使用Binary Relevance策略搭建可以预测中心体,细胞质,细胞骨架,内质网,内体,分泌途径,高尔基体,溶酶体,线粒体,细胞核,过氧化物酶体和细胞膜这12个亚细胞位置的SVM分类器。

2.一种人类蛋白质亚细胞位置预测方法,基于人类蛋白质序列预测蛋白质亚细胞位置,其特征在于,包括以下步骤:

S101,利用人类蛋白质序列信息分别提取序列全长,N端前10到60,C端前10到100长度蛋白质序列片段的氨基酸组成成分特征,归一化后的PSSM矩阵特征,并使用CFS降维,其中PSSM矩阵归一化并在每部分转化为20维特征的公式为:

其中Si,j表示出现在序列的第i个(1≤i≤L)位置上的氨基酸在进化过程中演变成第j种(1≤j≤20)氨基酸的概率评分,L表示蛋白质序列的长度,

<mrow><msubsup><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mn>0</mn></msubsup><mo>=</mo><mfrac><mrow><msub><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>-</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub></mrow><msqrt><mrow><mfrac><mn>1</mn><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>u</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msup><mrow><mo>(</mo><msub><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>u</mi></mrow></msub><mo>-</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mfrac><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>

S0i,j表示了归一化后这个特异性打分矩阵的分数,N表示了氨基酸的数目,在公式(2)中N=20,

<mrow><mover><msubsup><mi>S</mi><mi>j</mi><mn>0</mn></msubsup><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>L</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><msubsup><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mn>0</mn></msubsup><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>

其中表示的是对每列分数进行相加并求取平均后的值;

<mrow><mover><msub><mi>S</mi><mrow><mi>P</mi><mi>S</mi><mi>S</mi><mi>M</mi></mrow></msub><mo>&OverBar;</mo></mover><mo>=</mo><mo>&lsqb;</mo><mover><msubsup><mi>S</mi><mn>1</mn><mn>0</mn></msubsup><mo>&OverBar;</mo></mover><mo>,</mo><mover><msubsup><mi>S</mi><mn>2</mn><mn>0</mn></msubsup><mo>&OverBar;</mo></mover><mo>,</mo><mover><msubsup><mi>S</mi><mn>3</mn><mn>0</mn></msubsup><mo>&OverBar;</mo></mover><mo>,</mo><mo>...</mo><mo>,</mo><mover><msubsup><mi>S</mi><mn>20</mn><mn>0</mn></msubsup><mo>&OverBar;</mo></mover><mo>&rsqb;</mo><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>

就是经过归一化处理后的PSSM矩阵特征;

S102,通过提取Swiss-Prot数据库中所有人类蛋白质的GO特征,利用GOSSTO获取GO(BP,MF,CC)特征空间三个相似度矩阵;

S103,通过blast方法在Swiss-Prot数据库中搜索同源蛋白,提取他们的GO特征,同时用相同的方法获取训练集中蛋白质的GO特征;

S104,将蛋白质GO特征的三个部分(BP,MF,CC)通过一元组,二元组,三元组划分为7个部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC);

S105,通过蛋白质GO特征的相关性,分成七个部分来计算两个蛋白质的相关性:

<mrow><mi>C</mi><mi>o</mi><mi>r</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><mi>K</mi><mo>)</mo></mrow><mo>=</mo><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mrow><mn>1</mn><mo>&le;</mo><mi>i</mi><mo>&le;</mo><mi>m</mi></mrow></munder><mi>C</mi><mi>o</mi><mi>r</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>y</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>

其中Cor(xi,K)代表了xi所代表的GO注释特征与第K个蛋白质在这个部分下的相关性,

<mrow><msub><mi>Sim</mi><mi>k</mi></msub><mo>=</mo><msqrt><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>C</mi><mi>o</mi><mi>r</mi><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><mi>K</mi><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>

其中Simk表示训练集中第K个蛋白质与我们所预测的蛋白质之间的相关性,

在得到所有训练集中蛋白质与所预测的蛋白质之间的相关性之后,提取训练集中十个相关性高的蛋白质做有权值的KNN方法,获得该蛋白质在每个亚细胞位置上的概率值:

<mrow><msub><mi>pro</mi><mi>a</mi></msub><mo>=</mo><mfrac><mrow><msub><mo>&Sigma;</mo><mrow><mi>j</mi><mo>&Element;</mo><msub><mi>I</mi><msub><mi>N</mi><mi>a</mi></msub></msub></mrow></msub><msub><mi>sim</mi><mi>j</mi></msub><mo>+</mo><mfrac><mrow><msub><mi>num</mi><mi>a</mi></msub></mrow><mrow><mi>n</mi><mi>u</mi><mi>m</mi></mrow></mfrac></mrow><mrow><msub><mo>&Sigma;</mo><mrow><mi>i</mi><mo>&Element;</mo><msub><mi>I</mi><mi>N</mi></msub></mrow></msub><msub><mi>sim</mi><mi>i</mi></msub><mo>+</mo><mn>1</mn></mrow></mfrac><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>

其中numa和num分别表示在训练集中,蛋白质处于第a个亚细胞位置的个数和训练集中蛋白质的总个数。而proa则表示所预测的蛋白质处在第a个亚细胞位置的概率。

S106,通过rps-blast来获得Swiss-Prot数据库中所有人类蛋白质的保守域特征,并通过信息差计算特征之间的相关性:

<mrow><mi>H</mi><mrow><mo>(</mo><msubsup><mi>f</mi><mi>i</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munder><mo>&Sigma;</mo><mrow><mi>m</mi><mo>&Element;</mo><mo>{</mo><mn>0</mn><mo>,</mo><mn>1</mn><mo>}</mo></mrow></munder><mi>p</mi><mrow><mo>(</mo><msubsup><mi>f</mi><mi>i</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>=</mo><mi>m</mi><mo>)</mo></mrow><mo>&times;</mo><mi>log</mi><mi> </mi><mi>p</mi><mrow><mo>(</mo><msubsup><mi>f</mi><mi>i</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>=</mo><mi>m</mi><mo>)</mo></mrow><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow>

<mrow><msubsup><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>=</mo><mfrac><mrow><mn>2</mn><mo>&times;</mo><mrow><mo>(</mo><mi>H</mi><mo>(</mo><msubsup><mi>f</mi><mi>i</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>)</mo><mo>+</mo><mi>H</mi><mo>(</mo><msubsup><mi>f</mi><mi>j</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>)</mo><mo>-</mo><mi>H</mi><mo>(</mo><mrow><msubsup><mi>f</mi><mi>i</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>,</mo><msubsup><mi>f</mi><mi>j</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup></mrow><mo>)</mo><mo>)</mo></mrow></mrow><mrow><mi>H</mi><mrow><mo>(</mo><msubsup><mi>f</mi><mi>i</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>)</mo></mrow><mo>+</mo><mi>H</mi><mrow><mo>(</mo><msubsup><mi>f</mi><mi>j</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>)</mo></mrow></mrow></mfrac><mo>.</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>11</mn><mo>)</mo></mrow></mrow>

其中H(ficdd)表示第i个CDD特征的熵,p(ficdd=1)表示第i个CDD特征存在于蛋白质训练集中的概率。H(fjcdd,ficdd)表示第i个特征和第j个特征他们的微分熵,Si,jcdd代表了第i个CDD特征与第j个CDD特征之间的相关性,

得到保守域特征相似度矩阵,然后通过rps-blast来获得目标蛋白质的保守域特征来计算两个蛋白质的相关性,并提取训练集中十个相关性高的蛋白质做有权值的KNN方法,获得该蛋白质在每个亚细胞位置上的概率值;

S107,融合所获得的序列特征,GO七个部分的概率特征,保守域概率特征,使用Binary Relevance策略搭建12个SVM分类器预测蛋白质的亚细胞位置,和在每个亚细胞位置上的概率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710204499.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top