[发明专利]基于频繁模式和机器学习双推荐制的核定位信号预测方法有效
申请号: | 201811523117.2 | 申请日: | 2018-12-13 |
公开(公告)号: | CN109637589B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 沈红斌;郭芸 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B35/00 |
代理公司: | 上海伯瑞杰知识产权代理有限公司 31227 | 代理人: | 俞磊 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及蛋白质生物学领域,具体涉及一种基于频繁模式和机器学习双推荐制的核定位信号预测算法。本发明公开了两种模型,分别为基于频繁模式的NLS预测算法构建的模型和基于机器学习的NLS预测算法构建的模型。其中,第一种模型主要是利用PrefixSpan算法思想,以此挖掘出在核序列数据库中富集而在非核序列数据库中稀疏的一些频繁基序,对频繁基序进行一定筛选与评价,得到候选NLS。第二种模型则主要是综合以词向量为特征的SVM,基于统计的线性分类,失调分数以及PSSM矩阵的单个蛋白质序列预测NLS算法,该算法的击中率和冗余性得到了一定的改善。本发明不仅提高了NLS预测精度,更能发现一些不受已知NLS限制的特殊NLS。 | ||
搜索关键词: | 基于 频繁 模式 机器 学习 推荐 核定 信号 预测 方法 | ||
【主权项】:
1.一种基于频繁模式和机器学习双推荐制的核定位信号预测算法,其特征在于,包括如下步骤:S1、组建核定位信号训练集与非核定位信号训练集,分别作为正负样本;S2、利用已知的词向量模型提取正负样本中每个基序的词向量特征;S3、提取正负样本中每个基序的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB、平均等电点C和平均相对分子式量M;S4、用SVM中的RBF函数训练模型训练词向量特征,得到最佳SVM模型;S5、根据S3中提取的平均疏水值H、甘氨酸与碱性氨基酸差值的绝对值GB和平均等电点C,构建线性打分PC模型;S6、对于查询序列,滑动窗口切分输入的序列,得到一系列片段,计算这些片段的平均保守分数R,将R的极值对应的序列作为候选NLS;S7、利用S3中提取的平均相对分子式量M进行第一次候选集筛选,得到M在100到160之间的候选集,再将筛选后的候选集经由基于机器学习的核定位信号预测算法构建的模型得到对应的NLS分数,记作G2;S8、将G2分数超过设定阈值的候选集进行片段拼接,拼接结果即为基于机器学习模型预测的NLS;S9、对于查询序列,将它经由基于频繁模式的核定位信号预测算法构建的模型得到一系列候选NLS及其对应的NLS分数,记作G1,超过富集分数E′S阈值或超过G1阈值的候选NLS即为基于频繁模式模型预测的NLS;S10、由用户选择推荐方式,在对应推荐方式下的候选NLS作为预测的NLS。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811523117.2/,转载请声明来源钻瓜专利网。