[发明专利]基于频繁模式和机器学习双推荐制的核定位信号预测方法有效

专利信息
申请号: 201811523117.2 申请日: 2018-12-13
公开(公告)号: CN109637589B 公开(公告)日: 2022-07-26
发明(设计)人: 沈红斌;郭芸 申请(专利权)人: 上海交通大学
主分类号: G16B30/00 分类号: G16B30/00;G16B35/00
代理公司: 上海伯瑞杰知识产权代理有限公司 31227 代理人: 俞磊
地址: 200240 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 频繁 模式 机器 学习 推荐 核定 信号 预测 方法
【说明书】:

发明涉及蛋白质生物学领域,具体涉及一种基于频繁模式和机器学习双推荐制的核定位信号预测算法。本发明公开了两种模型,分别为基于频繁模式的NLS预测算法构建的模型和基于机器学习的NLS预测算法构建的模型。其中,第一种模型主要是利用PrefixSpan算法思想,以此挖掘出在核序列数据库中富集而在非核序列数据库中稀疏的一些频繁基序,对频繁基序进行一定筛选与评价,得到候选NLS。第二种模型则主要是综合以词向量为特征的SVM,基于统计的线性分类,失调分数以及PSSM矩阵的单个蛋白质序列预测NLS算法,该算法的击中率和冗余性得到了一定的改善。本发明不仅提高了NLS预测精度,更能发现一些不受已知NLS限制的特殊NLS。

技术领域

本发明涉及蛋白质生物学领域,具体地说,特别涉及到一种基于频繁模式和机器学习双推荐制的核定位信号预测算法。

背景技术

核定位信号是与载体蛋白结合的蛋白质肽,用于将核蛋白运输到细胞核中,其作为核定位的重要信息。核定位序列NLS的鉴定可以帮助阐明蛋白质功能。然而,这种信号的实验鉴定是昂贵的,目前只有有限数量的核定位序列NLS被确定。因此开发用于核定位序列NLS的计算预测的算法是重要的。

目前已经有了几种NLS预测方法,如PSORT II,PredictNLS,NLStradamus, cNLSMapper,NucImport和seqNLS等。PSORT II根据序列模式预测NLSs,根据NLS的分类实现为三个简单规则,该规则主要是碱性氨基酸K和R的聚簇以及聚类之间的空隙。PredictNLS则是基于194个潜在的NLS基序来预测NLS,这些基序是从114个实验验证的NLSs中用silico诱变方法得到的。NLStradamus 算法通过NLS倾向于具有与背景残基不同的残基频率分布,使用简单的二态或四态HMM来检测NLS适应频率变化。cNLS Mapper通过活性谱来计算肽链中每个残基功能贡献的总和来估计肽的经典NLS(cNLS)功能性。NucImport建立了一个贝叶斯网络,通过结合与核输入有关的各种属性来预测核定位,如果蛋白质被预测为核蛋白质,则基于与贝叶斯网络中的其他属性的依赖关系,将其NLS 的位置预测为候选cNLS中具有最高cNLS评分的蛋白质中的区段。seqNLS则是通过挖掘已知NLS中的频繁词,将频繁词在查询序列中按一定方式拼接为候选 NLS,然后基于线性基序评分。

虽然上述NLS预测方法都有一定的成果,但是仍存在各自的不足。例如: PSORT II假阳性较高,而且比对仅限cNLS;PredictNLS假阴性较高,使得一些新型NLS难以被发现;NLStradamus算法的性能取决于NLS具有一定残差分布的假设,然而也有许多的NLS具有非常不同的残基频率;cNLS Mapper仅局限于 cNLS,且所用的NLS活性来源于酵母,对其他物种的筛选可能有一定的局限性; NucImport也是基于cNLS开发的,对其他NLS具有限制;seqNLS开发基础不是从cNLS出发,也没有局限于物种,有一定的先进性,结果对比于其他软件,表现良好,但没有突出,尤其是基于已知的NLS频繁词的预测,会忽略一些特殊的且不常见的NLS。

另外,核定位信号预测存在的最大问题是准确率和召回率的难以调解,由于现有已验证的NLS数目有限且大多富有碱性氨基酸,使得基于机器学习的NLS 预测算法倾向于碱性氨基酸较高的NLS。使得只要有碱性氨基酸较多的片段,都很容易认为是NLS,造成冗余性过高,而且忽略一些其他类型的NLS,例如一些不含碱性氨基酸的NLS。

发明内容

本发明的目的在于针对现有技术中的不足,提供一种基于频繁模式和机器学习双推荐制的核定位信号预测算法,通过设立基于数据库的频繁模式挖掘和基于机器学习的双推荐机制,首先利用数据挖掘知识得到一些在核数据库中频繁出现的基序,以此解决机器学习中倾向性问题,便于发现一些特殊的NLS。然后在基于机器学习建立的打分机制中,综合利用进化信息(PSSM)、失调分数和序列特征信息(词向量)以及统计信息(均值)强化一些筛选条件,以降低冗余性。最后综合两种模型,既能得到一些与已知NLS匹配度较高的NLS,又能发现一些在核序列富含的特殊NLS。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811523117.2/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top