[发明专利]一种基于选择集成技术的致病同义突变预测方法在审
申请号: | 202111423909.4 | 申请日: | 2021-11-26 |
公开(公告)号: | CN114121155A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 夏俊峰;张涛;郑春厚 | 申请(专利权)人: | 安徽大学 |
主分类号: | G16B20/50 | 分类号: | G16B20/50;G06N20/00 |
代理公司: | 合肥汇融专利代理有限公司 34141 | 代理人: | 赵宗海 |
地址: | 230000 *** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 选择 集成 技术 致病 同义 突变 预测 方法 | ||
本发明公开了一种基于选择集成技术的致病同义突变预测方法,包括以下步骤:(1)数据获取;(2)数据预处理:对获取的数据集利用集成的K近邻缺失值填充算法进行缺失值填充;(3)模型构建:使用随机欠采样方法对不平衡数据进行处理,得到多套平衡训练集,利用该训练集训练多个基模型,构建模型池,再基于多样性对模型池中的模型进行选择集成;(4)模型训练:将不平衡基准训练集划分为构建模型的训练集和进行模型评估和参数优化的验证集,最后通过集成最优参数下的五折交叉验证模型得到最终模型;(5)模型预测。本发明通过采用随机欠采样技术和选择集成技术对同义突变领域的不平衡数据进行建模,具有较好的识别能力和覆盖能力。
技术领域
本发明涉及机器学习与生物信息计算领域,具体涉及一种基于选择集成技术的致病同义突变预测方法。
背景技术
由于同义突变不改变所编码的氨基酸序列,因此这类突变一直被认为是无害的。但随着精准医疗研究的深入,许多研究者发现同义突变与多种人类疾病相关,如Supek等人证明同义突变可以通过干扰RNA剪切或改变转录影响蛋白质功能,进而导致癌症相关疾病。为此,对同义突变的研究已成为研究者越来越感兴趣的课题。
然而,通过生物实验来研究致病同义突变耗时耗力,相比之下基于计算的方法效率高而且耗费低,同时也可以为进一步的实验验证提供基础。针对这点,研究者们提出了各种先进的有害同义突变预测工具,这些工具根据适用范围分为两类:广谱性工具和特异性工具,其中广谱性工具可以预测多种类型点突变,包括同义突变,但在同义突变上的效果仍有不足,性能不及特异性工具,而对特异性工具来说,由于同义突变领域可利用的正样本数量稀少,正负样本比例悬殊,特异性预测工具的性能也会受一定影响。
目前,现有技术中大多采用欠采样的方式构建模型,但是,采用上述方式构建的模型丢弃了数量丰富的负样本,可能会忽略负样本中隐藏的信息,从而影响模型的表现,为此亟需本领域技术人员提出一种新的技术手段。
发明内容
针对现有技术的不足,本发明提出了一种基于选择集成技术的致病同义突变预测方法,目的是为了解决如何对正负样本极度不平衡的数据采取合适的方法构建模型对致病同义突变进行有效预测与分类的技术问题。
为了实现上述目的,本发明采用了如下技术方案:
一种基于选择集成技术的致病同义突变预测方法,包括以下步骤:
(1)数据获取:从已发表的文献中获取不平衡的基准训练集和两套独立测试集;
(2)数据预处理:对获取的数据集利用集成的K近邻缺失值填充算法对数据进行缺失值填充;
(3)模型构建:使用随机欠采样的方法对不平衡数据进行处理,得到多套平衡训练集,利用该训练集训练多个基模型,构建模型池,然后基于多样性对模型池中的模型进行选择集成,具体过程如下:
S31.输入数据记为D,其中正样本记为P,负样本记为N,其中|P||N|;
S32.对负样本N进行k次欠采样得到N的k个子集{N1,N2,…,Nk},其中|Ni|=|P|且i∈{1,2,…,k};
S33.由{N1,N2,…,Nk}和P得到{D1,D2,…,Dk},其中Di=Ni∪P;
S34.分别利用D1,D2,…,Dk训练基分类器C1,C2,…,Ck;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111423909.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动出货的保鲜储箱
- 下一篇:一种水解乳清蛋白交联物的制备方法