[发明专利]一种人类蛋白质亚细胞位置预测方法在审

申请号：	201710204499.1	申请日：	2017-03-31
公开（公告）号：	CN106778070A	公开（公告）日：	2017-05-31
发明（设计）人：	沈红斌;周航	申请（专利权）人：	上海交通大学
主分类号：	G06F19/18	分类号：	G06F19/18;G06F19/24
代理公司：	上海伯瑞杰知识产权代理有限公司31227	代理人：	孟旭彤
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种人类蛋白质细胞位置预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种人类蛋白质亚细胞位置预测方法，基于人类蛋白质序列预测蛋白质亚细胞位置，其特征在于，包括以下步骤：

第一步：利用人类蛋白质序列信息分别提取序列全长，序列N端，C端多个蛋白质序列片段的残基统计特征，其中包括氨基酸组成成分特征和利用蛋白质同源信息所获得的特异性打分矩阵特征并对该特征进行归一化处理，在综合这两个特征之后使用Correlation-based Feature Selection这种有监督的特征选择算法进行降维；

第二步：通过提取蛋白质数据库中所有人类蛋白质的GO特征，利用GOSSTO获取GO(BP,MF,CC)特征空间三个相似度矩阵；

第三步：通过blast方法在Swiss-Prot数据库中搜索同源蛋白，提取所述同源蛋白的GO特征，同时用相同的方法获取训练集中蛋白质的GO特征；

第四步：将蛋白质GO特征的三个部分(BP,MF,CC)通过一元组，二元组，三元组划分为7个部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC)；

第五步：通过蛋白质GO特征的相关性，分成七个部分来计算两个蛋白质的相关性，并通过参数优化，提取训练集中十个相关性高的蛋白质做有权值的KNN方法，获得该蛋白质在每个亚细胞位置上的概率值；

第六步：通过rps-blast来获得Swiss-Prot数据库中所有人类蛋白质的保守域特征，并通过信息差计算特征之间的相关性，得到保守域特征相似度矩阵，然后通过rps-blast来获得目标蛋白质的保守域特征来计算两个蛋白质的相关性，并通过参数优化，提取训练集中十个相关性高的蛋白质做有权值的KNN方法，获得该蛋白质在每个亚细胞位置上的概率值；

第七步：融合所获得的序列特征，GO七个部分的概率特征，保守域概率特征，使用Binary Relevance策略搭建可以预测中心体，细胞质，细胞骨架，内质网，内体，分泌途径，高尔基体，溶酶体，线粒体，细胞核，过氧化物酶体和细胞膜这12个亚细胞位置的SVM分类器。

2.一种人类蛋白质亚细胞位置预测方法，基于人类蛋白质序列预测蛋白质亚细胞位置，其特征在于，包括以下步骤：

S101，利用人类蛋白质序列信息分别提取序列全长，N端前10到60，C端前10到100长度蛋白质序列片段的氨基酸组成成分特征，归一化后的PSSM矩阵特征，并使用CFS降维，其中PSSM矩阵归一化并在每部分转化为20维特征的公式为：

其中S_i,j表示出现在序列的第i个(1≤i≤L)位置上的氨基酸在进化过程中演变成第j种(1≤j≤20)氨基酸的概率评分，L表示蛋白质序列的长度，

$<mrow><msubsup><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mn>0</mn></msubsup><mo>=</mo><mfrac><mrow><msub><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow></msub><mo>-</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mo>Σ</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub></mrow><msqrt><mrow><mfrac><mn>1</mn><mrow><mi>N</mi><mo>-</mo><mn>1</mn></mrow></mfrac><munderover><mo>Σ</mo><mrow><mi>u</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msup><mrow><mo>(</mo><msub><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>u</mi></mrow></msub><mo>-</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><munderover><mo>Σ</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msub><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>k</mi></mrow></msub><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt></mfrac><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>$

S⁰_i,j表示了归一化后这个特异性打分矩阵的分数，N表示了氨基酸的数目，在公式(2)中N＝20，

$<mrow><mover><msubsup><mi>S</mi><mi>j</mi><mn>0</mn></msubsup><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>L</mi></mfrac><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><msubsup><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mn>0</mn></msubsup><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>$

其中表示的是对每列分数进行相加并求取平均后的值；

$<mrow><mover><msub><mi>S</mi><mrow><mi>P</mi><mi>S</mi><mi>S</mi><mi>M</mi></mrow></msub><mo>&OverBar;</mo></mover><mo>=</mo><mo>[</mo><mover><msubsup><mi>S</mi><mn>1</mn><mn>0</mn></msubsup><mo>&OverBar;</mo></mover><mo>,</mo><mover><msubsup><mi>S</mi><mn>2</mn><mn>0</mn></msubsup><mo>&OverBar;</mo></mover><mo>,</mo><mover><msubsup><mi>S</mi><mn>3</mn><mn>0</mn></msubsup><mo>&OverBar;</mo></mover><mo>,</mo><mo>...</mo><mo>,</mo><mover><msubsup><mi>S</mi><mn>20</mn><mn>0</mn></msubsup><mo>&OverBar;</mo></mover><mo>]</mo><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>$

就是经过归一化处理后的PSSM矩阵特征；

S102，通过提取Swiss-Prot数据库中所有人类蛋白质的GO特征，利用GOSSTO获取GO(BP,MF,CC)特征空间三个相似度矩阵；

S103，通过blast方法在Swiss-Prot数据库中搜索同源蛋白，提取他们的GO特征，同时用相同的方法获取训练集中蛋白质的GO特征；

S104，将蛋白质GO特征的三个部分(BP,MF,CC)通过一元组，二元组，三元组划分为7个部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC)；

S105，通过蛋白质GO特征的相关性，分成七个部分来计算两个蛋白质的相关性：

$<mrow><mi>C</mi><mi>o</mi><mi>r</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><mi>K</mi><mo>)</mo></mrow><mo>=</mo><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mrow><mn>1</mn><mo>≤</mo><mi>i</mi><mo>≤</mo><mi>m</mi></mrow></munder><mi>C</mi><mi>o</mi><mi>r</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>y</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>$

其中Cor(x_i,K)代表了x_i所代表的GO注释特征与第K个蛋白质在这个部分下的相关性，

$<mrow><msub><mi>Sim</mi><mi>k</mi></msub><mo>=</mo><msqrt><mrow><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>C</mi><mi>o</mi><mi>r</mi><msup><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><mi>K</mi><mo>)</mo></mrow><mn>2</mn></msup></mrow></msqrt><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>$

其中Sim_k表示训练集中第K个蛋白质与我们所预测的蛋白质之间的相关性，

在得到所有训练集中蛋白质与所预测的蛋白质之间的相关性之后，提取训练集中十个相关性高的蛋白质做有权值的KNN方法，获得该蛋白质在每个亚细胞位置上的概率值：

$<mrow><msub><mi>pro</mi><mi>a</mi></msub><mo>=</mo><mfrac><mrow><msub><mo>Σ</mo><mrow><mi>j</mi><mo>&Element;</mo><msub><mi>I</mi><msub><mi>N</mi><mi>a</mi></msub></msub></mrow></msub><msub><mi>sim</mi><mi>j</mi></msub><mo>+</mo><mfrac><mrow><msub><mi>num</mi><mi>a</mi></msub></mrow><mrow><mi>n</mi><mi>u</mi><mi>m</mi></mrow></mfrac></mrow><mrow><msub><mo>Σ</mo><mrow><mi>i</mi><mo>&Element;</mo><msub><mi>I</mi><mi>N</mi></msub></mrow></msub><msub><mi>sim</mi><mi>i</mi></msub><mo>+</mo><mn>1</mn></mrow></mfrac><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>$

其中num_a和num分别表示在训练集中，蛋白质处于第a个亚细胞位置的个数和训练集中蛋白质的总个数。而pro_a则表示所预测的蛋白质处在第a个亚细胞位置的概率。

S106，通过rps-blast来获得Swiss-Prot数据库中所有人类蛋白质的保守域特征，并通过信息差计算特征之间的相关性：

$<mrow><mi>H</mi><mrow><mo>(</mo><msubsup><mi>f</mi><mi>i</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munder><mo>Σ</mo><mrow><mi>m</mi><mo>&Element;</mo><mo>{</mo><mn>0</mn><mo>,</mo><mn>1</mn><mo>}</mo></mrow></munder><mi>p</mi><mrow><mo>(</mo><msubsup><mi>f</mi><mi>i</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>=</mo><mi>m</mi><mo>)</mo></mrow><mo>×</mo><mi>log</mi><mi> </mi><mi>p</mi><mrow><mo>(</mo><msubsup><mi>f</mi><mi>i</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>=</mo><mi>m</mi><mo>)</mo></mrow><mo>,</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow>$

$<mrow><msubsup><mi>S</mi><mrow><mi>i</mi><mo>,</mo><mi>j</mi></mrow><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>=</mo><mfrac><mrow><mn>2</mn><mo>×</mo><mrow><mo>(</mo><mi>H</mi><mo>(</mo><msubsup><mi>f</mi><mi>i</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>)</mo><mo>+</mo><mi>H</mi><mo>(</mo><msubsup><mi>f</mi><mi>j</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>)</mo><mo>-</mo><mi>H</mi><mo>(</mo><mrow><msubsup><mi>f</mi><mi>i</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>,</mo><msubsup><mi>f</mi><mi>j</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup></mrow><mo>)</mo><mo>)</mo></mrow></mrow><mrow><mi>H</mi><mrow><mo>(</mo><msubsup><mi>f</mi><mi>i</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>)</mo></mrow><mo>+</mo><mi>H</mi><mrow><mo>(</mo><msubsup><mi>f</mi><mi>j</mi><mrow><mi>c</mi><mi>d</mi><mi>d</mi></mrow></msubsup><mo>)</mo></mrow></mrow></mfrac><mo>.</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>11</mn><mo>)</mo></mrow></mrow>$

其中H(f_i^cdd)表示第i个CDD特征的熵，p(f_i^cdd＝1)表示第i个CDD特征存在于蛋白质训练集中的概率。H(f_j^cdd,f_i^cdd)表示第i个特征和第j个特征他们的微分熵，S_i,j^cdd代表了第i个CDD特征与第j个CDD特征之间的相关性，

得到保守域特征相似度矩阵，然后通过rps-blast来获得目标蛋白质的保守域特征来计算两个蛋白质的相关性，并提取训练集中十个相关性高的蛋白质做有权值的KNN方法，获得该蛋白质在每个亚细胞位置上的概率值；

S107，融合所获得的序列特征，GO七个部分的概率特征，保守域概率特征，使用Binary Relevance策略搭建12个SVM分类器预测蛋白质的亚细胞位置，和在每个亚细胞位置上的概率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海交通大学，未经上海交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710204499.1/1.html，转载请声明来源钻瓜专利网。

上一篇：确定胎儿染色体中微缺失微重复的方法及设备
下一篇：用以分析细菌菌种的测序数据的系统及其方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学，即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真，例如：概率模型或动态模型，遗传基因管理网络，蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的，例如：进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的，例如：结构排序，结构或功能关系，蛋白质折叠，结构域拓扑，用结构数据的药靶，涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的，例如：基因型–表型关联，不均衡连接，种群遗传学，结合位置鉴定，变异发生，基因型或染色体组的注释，蛋白质相互作用或蛋白质核酸的相互作用

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种人类蛋白质亚细胞位置预测方法在审

专利文献下载