[发明专利]基于关系图谱的蛋白质亚细胞区间预测方法有效
申请号: | 201811014322.6 | 申请日: | 2018-08-31 |
公开(公告)号: | CN109273054B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 薛卫;陈行健;胡雪娇;徐阳春;韦中;梅新兰 | 申请(专利权)人: | 南京农业大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B35/00 |
代理公司: | 南京天华专利代理有限责任公司 32218 | 代理人: | 刘畅;徐冬涛 |
地址: | 211225 江苏省南京市溧*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于关系图谱的蛋白质亚细胞区间预测方法,它以蛋白质序列为研究对象,提出了一种基于关系图谱的改进词袋模型用于提取蛋白质序列特征信息并送入分类器进行蛋白质亚细胞区间预测的方法。该方法在传统词袋模型的基础上,结合马尔科夫假设对蛋白质序列单词片段提取位置关系图谱,并把该关系图谱送入卷积神经网络(CNN)进行深度特征提取,将提取出的深度特征与基于传统词袋模型得到的词袋特征融合作为蛋白质序列的最终的融合特征表示,并送入支持向量机多类分类器进行分类预测。实例结果表明,单独使用关系图谱特征进行分类的预测准确率高于单独使用传统词袋特征,将关系图谱特征与传统词袋特征融合进行分类的预测效果更佳。 | ||
搜索关键词: | 基于 关系 图谱 蛋白质 细胞 区间 预测 方法 | ||
【主权项】:
1.一种基于关系图谱的蛋白质亚细胞区间预测方法,其特征在于它包括以下步骤:(1)对数据集中所有的蛋白质序列即目标序列按照一定的长度进行分割处理产生若干个序列单词,提取所有序列单词的特征;(2)对序列单词的特征进行聚类分析,用K‑means聚类算法构建字典,聚类中心个数即为字典大小,经聚类分析后序列单词的特征被映射到字典中的各个聚类中心;(3)对由聚类中心表示的序列单词提取位置关系图谱并送入卷积神经网络CNN进行特征提取;(4)统计每一条蛋白质序列属于各个聚类中心的序列单词个数,并计算各个聚类中心上序列单词个数占该条蛋白质序列序列单词总数的比例,从而获得蛋白质序列的词袋特征,然后与步骤(3)所得到的关系图谱特征进行融合,经PCA降维后得到蛋白质序列最终的融合特征;(5)将蛋白质序列的融合特征送入支持向量机多类分类器进行蛋白质亚细胞区间预测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京农业大学,未经南京农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811014322.6/,转载请声明来源钻瓜专利网。