[发明专利]预测氨基酸突变的方法及系统在审
申请号: | 201611058747.8 | 申请日: | 2016-11-25 |
公开(公告)号: | CN106650314A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 邓磊;潘玉亮 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F19/22 | 分类号: | G06F19/22;G06F19/24 |
代理公司: | 长沙朕扬知识产权代理事务所(普通合伙)43213 | 代理人: | 何湘玲 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预测 氨基酸 突变 方法 系统 | ||
技术领域
本发明涉及生物信息技术领域,尤其涉及一种预测氨基酸突变的方法及系统。
背景技术
氨基酸突变也被称为非同义的单核苷酸突变,是关于人类疾病变种研究中价值最大的一部分。氨基酸突变是由于一些单个碱基的改变,造成蛋白质产物中氨基酸序列的改变。氨基酸的改变会影响蛋白质的稳定性、相互作用和酶的活性,从而导致疾病的发生。根据最新的全人类基因组测序的结果表明,每个人都会有三到五百万个氨基酸突变,而且这一数据仍然在快速的增长。在众多的氨基酸突变中,一些突变会导致疾病的发生,其他的则是对蛋白质功能没有影响的中性突变。随着单核苷酸多态性等位基因分型和下一代DNA测序技术等基因组分析技术的快速发展,产生了大量关于氨基酸突变的数据。这些数据通过研究发现,绝大多数的氨基酸突变都是疾病形成的潜在因素,但是通过生物实验来测定大量突变的表现型和生物化学性质比较耗时耗力,且成本花费大。然而,如果采用数据挖掘的方法对大量突变数据进行预测,不仅预测精度高、方便、快速,而且节约成本。
目前已经有许多计算方法运用于氨基酸突变的预测。这些方法主要使用的是统计原理和机器学习算法进行预测分类。例如:SIFT、SNAP、PolyPhen2、FunSAV和SusPect等方法。它们的输入特征包括氨基酸序列、3D结构、氨基酸的理化性质、进化信息和残基互联网络等特征。而且许多方法已经被做成独立软件或者网站服务器,可供研究团体免费使用。但现有的方法预测精度不高,所以还有很大的提升空间。因此,如果能运用一种有效的方法,把有害的和中性的氨基酸突变相互区分开,将更好的理解基因型和表现型的相互关系,进而揭开基因遗传突变致病的内部细节。
发明内容
本发明目的在于公开一种预测氨基酸突变的方法及系统,以提高预测的精度和效果,有效解决生物实验的盲目性和成本高等问题。
为实现上述目的,本发明公开了一种预测氨基酸突变的方法,包括:
构建蛋白质样本集,将氨基酸突变后表现是中性的样本归为负样本,将氨基酸突变后表现为病态的样本归为正样本;
确定预筛选的特征,并计算各样本的各特征值,以突变的氨基酸为中心确定滑动窗口的大小,以所确定的滑动窗口将同一样本的各个特征值整合到一条特征序列中组合构造成样本的初始特征集合,所述预筛选的特征包括根据欧式距离和沃罗诺伊图所确定的空间邻居的序列和结构特征;
通过稳定性特征选择算法对所述初始特征集合进行第一次降维处理,筛选出比较重要特征组合构造成样本的第一次筛选特征集合;
通过序列前向选择算法对所述第一次筛选特征集合进行第二次降维处理,筛选出重要特征组合构成样本的最终筛选特征集合;
抽取正样本和负样本构建训练集和独立测试集,将所述训练集中各样本的最终筛选特征集合代入梯度提升树算法中进行训练,得出最终的分类模型,并结合所述独立测试集的最终筛选特征集合对所述分类模型的预测结果进行评估。
为实现上述目的,本发明还公开了一种预测氨基酸突变的系统,包括:
第一处理模块,用于构建蛋白质样本集,将氨基酸突变后表现是中性的样本归为负样本,将氨基酸突变后表现为病态的样本归为正样本;
第二处理模块,用于确定预筛选的特征,并计算各样本的各特征值,以突变的氨基酸为中心确定滑动窗口的大小,以所确定的滑动窗口将同一样本的各个特征值整合到一条特征序列中组合构造成样本的初始特征集合,所述预筛选的特征包括根据欧式距离和沃罗诺伊图所确定的空间邻居的序列和结构特征;
第三处理模块,用于通过稳定性特征选择算法对所述初始特征集合进行第一次降维处理,筛选出比较重要特征组合构造成样本的第一次筛选特征集合;
第四处理模块,用于通过序列前向选择算法对所述第一次筛选特征集合进行第二次降维处理,筛选出重要特征组合构成样本的最终筛选特征集合;
第五处理模块,用于抽取正样本和负样本构建训练集和独立测试集,将所述训练集中各样本的最终筛选特征集合代入梯度提升树算法中进行训练,得出最终的分类模型,并结合所述独立测试集的最终筛选特征集合对所述分类模型的预测结果进行评估。
本发明具有以下有益效果:
通过提取多种氨基酸特征进行两次降维处理得出重要特征,并基于降维后的重要特征进行分类模型的构建及评估,提高了预测的精度和效果,有效解决生物实验的盲目性和成本高等问题。
下面将参照附图,对本发明作进一步详细的说明。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611058747.8/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用