[发明专利]一种III型分泌系统效应蛋白识别方法及装置在审
| 申请号: | 202111136236.4 | 申请日: | 2021-09-27 |
| 公开(公告)号: | CN113838520A | 公开(公告)日: | 2021-12-24 |
| 发明(设计)人: | 邹权;李静;丁漪杰;杜军平 | 申请(专利权)人: | 电子科技大学长三角研究院(衢州) |
| 主分类号: | G16B20/00 | 分类号: | G16B20/00;G06K9/62 |
| 代理公司: | 成都创新引擎知识产权代理有限公司 51249 | 代理人: | 林庆华 |
| 地址: | 324003 浙江省衢*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 iii 分泌 系统 效应 蛋白 识别 方法 装置 | ||
1.一种III型分泌系统效应蛋白识别方法,其特征在于,包括如下步骤:
S1、导入III型分泌系统效应蛋白序列数据文件,并从所述III型分泌效应蛋白序列数据文件中获取原始III型分泌系统效应蛋白数据集;
S2、根据特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取数据特征,根据所述数据特征构建特征矩阵;
S3、根据标签传播算法对所述特征矩阵进行标签设置,得到第一III型分泌系统效应蛋白基分类器;
S4、基于改进史密斯-沃特曼算法构建特征相似度评分矩阵;
S5、通过所述特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器;
S6、根据集成策略将所述第一III型分泌系统效应蛋白基分类器和所述第二III型分泌系统效应蛋白基分类器集成III型分泌系统效应蛋白模型。
2.根据权利要求1所述的III型分泌系统效应蛋白识别方法,其特征在于,所述S1中,所述原始III型分泌系统效应蛋白数据集包括正例数据集和反例数据集,其中,所述正例数据集为带分类的III型分泌系统效应蛋白序列,所述反例数据集为非III型分泌系统效应蛋白序列,所述非III型分泌系统效应蛋白序列为除III型分泌系统效应蛋白序列的其他类型分泌效应蛋白序列。
3.根据权利要求1所述的III型分泌系统效应蛋白识别方法,其特征在于,所述特征提取方法包括基于序列的蛋白质特征提取方法、基于物化性质的蛋白质特征提取方法和基于进化信息的蛋白质特征提取方法;
所述S2中,根据特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取数据特征,根据所述数据特征构建特征矩阵的过程包括:
基于序列的蛋白质特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取氨基酸组成、二肽组成和准序列顺序描述符,得到第一类数据特征;
基于物化性质的蛋白质特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取CTDC氨基酸组成和CTDT氨基酸组成,得到第二类数据特征;
基于进化信息的蛋白质特征提取方法从所述原始III型分泌系统效应蛋白数据集中提取PSSM-composition编码、RPM-PSSM编码、D-FPSSM编码、TPC编码和DP-PSSM编码,得到第三类数据特征;
将所述第一类数据特征、所述第二类数据特征和所述第三类数据特征作为节点构建特征矩阵。
4.根据权利要求3所述的III型分泌系统效应蛋白识别方法,其特征在于,所述S3中,所述根据标签传播算法对所述特征矩阵进行设置的过程包括:
根据标签传播算法在所述特征矩阵中设置标签信息,通过预先标记节点的标签信息预测未标记节点的标签信息,完成所有节点的标签设置。
5.根据权利要求1所述的III型分泌系统效应蛋白识别方法,其特征在于,所述S4中,基于改进史密斯-沃特曼算法构建特征相似度评分矩阵的过程包括:
基于改进史密斯-沃特曼算法和相似度评分公式将每个站点的最大值作为最终的站点评分构建相似度评分矩阵,所述相似度评分公式为:
其中,W表示相似度评分,Max和Min分别表示为最终评分矩阵中的最大值和最小值。
6.根据权利要求1所述的III型分泌系统效应蛋白识别方法,其特征在于,所述S5中,所述通过所述特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器的过程包括:
所述根据支持向量机算法优化所述特征相似度评分矩阵,通过优化后的所述特征相似度评分矩阵构建第二III型分泌系统效应蛋白基分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院(衢州),未经电子科技大学长三角研究院(衢州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111136236.4/1.html,转载请声明来源钻瓜专利网。





