[发明专利]一种基于机器学习选择最优特征的DNA甲基化预测方法有效
申请号: | 201711465834.X | 申请日: | 2017-12-28 |
公开(公告)号: | CN107918725B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 马宝山;矫翔田;孟凡宇;耿尧;董佳昕;陈宇航;王雯萱;马奕;张萌;徐丹;王巍;孙野青 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B20/00 |
代理公司: | 大连至诚专利代理事务所(特殊普通合伙) 21242 | 代理人: | 杨威;涂文诗 |
地址: | 116000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于机器学习选择最优特征的DNA甲基化预测方法,本发明首先通过使用不同的机器学习算法一搜索不同个数的最强相关CpG位点,构建不同模型的最强相关CpG位点集合,然后利用不同的机器学习算法二对不同的模型的最强相关CpG位点集合进行测试,对测试结果与真实实验的结果进行比较,根据评价指标确定最优模型所使用的最强相关CpG位点个数和机器学习算法类型,从而完成了基于多个最强CpG位点的预测模型的建立。本发明提高了最强CpG位点的搜索效率,从而提高预测模型预测性能。 | ||
搜索关键词: | 一种 基于 机器 学习 选择 最优 特征 dna 甲基化 预测 方法 | ||
【主权项】:
一种基于机器学习选择最优特征的DNA甲基化预测方法,其特征在于,包含以下步骤:S1:根据n个训练样本的m个CpG位点的数据和p个测试样本的m个CpG位点的数据,分别生成包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m),包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m),包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m),包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m);其中n是训练数据集样本个数,p是测试集样本个数,m是CpG位点个数,元素xit(i=1~n,t=1~m)的含义是训练样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值,元素yit(i=1~n,t=1~m)的含义是训练样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值,元素wit(i=1~p,t=1~m)的含义是测试样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值,元素zit(i=1~p,t=1~m)的含义是测试样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值,xi.是矩阵X(n×m)的第i行,x.j是矩阵X(n×m)的第j列,yi.是矩阵Y(n×m)的第i行,y.j是矩阵Y(n×m)的第j列,wi.是矩阵W(p×m)的第i行,w.j是矩阵W(p×m)的第j列,zi.是矩阵Z(p×m)的第i行,z.j是矩阵Z(p×m)的第j列;S2:指定位点j,去掉包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m)的第j列,形成替代器官训练矩阵Xtrain,提取包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m)的第j列,形成替代器官训练向量Ytrain;S3:指定最强相关CpG位点的个数L,并使用机器学习算法一建立模型Xopt=F(Xtrain,Ytrain);S4:从Xopt筛选出L‑1个最强相关CpG位点{x.k}并与x.j合并为最强相关CpG位点集合X1(n×L);S5:使用机器学习算法二对最强相关CpG位点集合X1(n×L)进行建模;S6:使用S5中的生成模型对包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m)进行预测,得到预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z*(p×m);S7:比较预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z*(p×m)和包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m),进行评价指标计算;S8:变更S3中的最强相关CpG位点的个数L和机器学习算法一的类型以及变更S5中机器学习算法二的类型,重复S3~S7,共生成Q个模型及其评价指标;S9:对Q个模型的评价指标进行综合比较,确定机器学习算法一、机器学习算法二的类型以及最强相关CpG位点的个数L。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711465834.X/,转载请声明来源钻瓜专利网。