[发明专利]一种基于机器学习选择最优特征的DNA甲基化预测方法有效
申请号: | 201711465834.X | 申请日: | 2017-12-28 |
公开(公告)号: | CN107918725B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 马宝山;矫翔田;孟凡宇;耿尧;董佳昕;陈宇航;王雯萱;马奕;张萌;徐丹;王巍;孙野青 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B20/00 |
代理公司: | 大连至诚专利代理事务所(特殊普通合伙) 21242 | 代理人: | 杨威;涂文诗 |
地址: | 116000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 选择 最优 特征 dna 甲基化 预测 方法 | ||
1.一种基于机器学习选择最优特征的DNA甲基化预测方法,其特征在于,包含以下步骤:
S1:根据n个训练样本的m个CpG位点的数据和p个测试样本的m个CpG位点的数据,分别生成包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m),包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m),包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m),包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m);
其中n是训练数据集样本个数,p是测试集样本个数,m是CpG位点个数,元素xit(i=1~n,t=1~m)的含义是训练样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值,元素yit(i=1~n,t=1~m)的含义是训练样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值,元素wit(i=1~p,t=1~m)的含义是测试样本中替代器官里第i个样本中第t个CpG位点的DNA甲基化的值,元素zit(i=1~p,t=1~m)的含义是测试样本中目标器官里第i个样本中第t个CpG位点的DNA甲基化的值,xi.是矩阵X(n×m)的第i行,x.j是矩阵X(n×m)的第j列,yi.是矩阵Y(n×m)的第i行,y.j是矩阵Y(n×m)的第j列,wi.是矩阵W(p×m)的第i行,w.j是矩阵W(p×m)的第j列,zi.是矩阵Z(p×m)的第i行,z.j是矩阵Z(p×m)的第j列;
S2:指定位点j,去掉包含训练样本替代器官DNA甲基化值的数据矩阵X(n×m)的第j列,形成替代器官训练矩阵Xtrain,提取包含训练样本目标器官DNA甲基化值的数据矩阵Y(n×m)的第j列,形成目标器官训练向量Ytrain;
S3:指定最强相关CpG位点的个数L,并使用机器学习算法一建立模型Xopt=F(Xtrain,Ytrain);
S4:从Xopt筛选出L-1个最强相关CpG位点{x.k}并与x.j合并为最强相关CpG位点集合X1(n×L);
S5:使用机器学习算法二对最强相关CpG位点集合X1(n×L)进行建模;
S6:使用S5中的生成模型对包含测试样本替代器官DNA甲基化值的数据矩阵W(p×m)进行预测,得到预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z*(p×m);
S7:比较预测的包含测试样本目标器官DNA甲基化值的数据矩阵Z*(p×m)和包含测试样本目标器官DNA甲基化值的数据矩阵Z(p×m),进行评价指标计算;
S8:变更S3中的最强相关CpG位点的个数L和机器学习算法一的类型以及变更S5中机器学习算法二的类型,重复S3~S7,共生成Q个模型及其评价指标;
S9:对Q个模型的评价指标进行综合比较,确定机器学习算法一、机器学习算法二的类型以及最强相关CpG位点的个数L。
2.根据权利要求1所述的基于机器学习选择最优特征的DNA甲基化预测方法,其特征在于,所述步骤S3中所述的机器学习算法一为随机森林或过滤式或包裹式或嵌入式特征选择算法。
3.根据权利要求1所述的基于机器学习选择最优特征的DNA甲基化预测方法,其特征在于,所述步骤S5中所述的机器学习算法二为支持向量机或深度学习算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711465834.X/1.html,转载请声明来源钻瓜专利网。