[发明专利]一种基于机器学习选择最优特征的DNA甲基化预测方法有效
申请号: | 201711465834.X | 申请日: | 2017-12-28 |
公开(公告)号: | CN107918725B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 马宝山;矫翔田;孟凡宇;耿尧;董佳昕;陈宇航;王雯萱;马奕;张萌;徐丹;王巍;孙野青 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B20/00 |
代理公司: | 大连至诚专利代理事务所(特殊普通合伙) 21242 | 代理人: | 杨威;涂文诗 |
地址: | 116000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 选择 最优 特征 dna 甲基化 预测 方法 | ||
本发明公开了一种基于机器学习选择最优特征的DNA甲基化预测方法,本发明首先通过使用不同的机器学习算法一搜索不同个数的最强相关CpG位点,构建不同模型的最强相关CpG位点集合,然后利用不同的机器学习算法二对不同的模型的最强相关CpG位点集合进行测试,对测试结果与真实实验的结果进行比较,根据评价指标确定最优模型所使用的最强相关CpG位点个数和机器学习算法类型,从而完成了基于多个最强CpG位点的预测模型的建立。本发明提高了最强CpG位点的搜索效率,从而提高预测模型预测性能。
技术领域
本发明涉及DNA甲基化预测领域,更具体的,涉及基于机器学习选择最优特征的DNA甲基化预测方法。
背景技术
复杂疾病是由多基因、基因与基因相互作用、基因与环境相互作用共同引起的。这些基因与基因、基因与环境的相互作用形成一个多层次的复杂生物网络,正是这些复杂网络的变异引起了疾病的发生与发展。因此,生物数据分析的一个难点就是数据之间存在复杂的关联性。在基因组中,特定CpG位点的甲基化与邻近或其他区域的CpG位点相关联。例如在预测某一个CpG位点的数据时,多数其它位点的数据对建模和预测没有帮助,属于冗余信息,而某些特殊CpG位点的数据对于建模和预测精度非常重要,这些位点属于最强相关CpG位点。
DNA甲基化直接影响细胞分化和组织器官发育,与冠心病等复杂疾病密切相关,是表观遗传学研究的热点问题。获取人体器官的DNA甲基化表达数据对于研究该器官的病变具有重要理论研究意义和临床实用价值。但在多数情况下,很难直接对人体病变器官采样。能否用替代组织器官(例如外周血)中甲基化表达数据来预测目标组织器官(例如心脏)中的甲基化表达数据,仍是一个急需解决的问题。
科研人员对DNA甲基化的预测开展了很多研究,但多数只是粗略的估计CpG岛(CpGisland,基因组中长度为300~3000bp的富含CpG二核苷酸的一些区域,主要存在于基因的5′区域)片段的甲基化状态,分辨率较低,预测甲基化状态一般只分为甲基化(常用1表示)和非甲基化(常用0表示)。
DNA甲基化数据维度很高,一般上万甚至几十万,因此,如何高效搜索最强CpG位点成为迫切需要解决的问题。预测模型中包含最强相关CpG位点会进一步提高其预测性能。
发明内容
本发明的目的在于克服现有技术存在的上述缺陷,提供一种基于机器学习选择最优特征的DNA甲基化预测方法。本发明首先使用不同的机器学习算法一搜索不同个数的最强相关CpG位点,构建不同的模型的最强相关CpG位点集合,然后利用不同的机器学习算法二对不同的模型的最强相关CpG位点集合进行测试,并对测试结果与真实实验的结果进行比较,根据评价指标确定最优的最强相关CpG位点个数、机器学习算法一和机器学习算法二,最后建立基于多个最强CpG位点的预测模型。
为实现上述目的,本发明的技术方案如下:
一种基于机器学习选择最优特征的DNA甲基化预测方法,其特征在于,包含以下步骤:
S1:根据n个训练样本的m个CpG位点的数据和p个测试样本的m个CpG位点的数据,分别生成包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m),包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m),包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m),包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711465834.X/2.html,转载请声明来源钻瓜专利网。