[发明专利]基于多标记学习和贝叶斯网络的中医症型分类预测方法有效
申请号: | 201710027490.8 | 申请日: | 2017-01-16 |
公开(公告)号: | CN106874655B | 公开(公告)日: | 2018-12-14 |
发明(设计)人: | 夏勇;马梦羽;沈璐;张艳宁 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 刘新琼 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于多标记学习和贝叶斯网络的中医症型分类预测方法,通过寻找到中医糖尿病6种症型之间的关系,发掘每个症型存在的隐形“成因”,并将这些“成因”与传统四诊信息结合起来,构造增广特征集来描述样本。最后通过特征选择算法和多标记分类算法来构造分类器,实现对中医临床糖尿病6种常见症型的分类预测。 | ||
搜索关键词: | 基于 标记 学习 贝叶斯 网络 中医 分类 预测 方法 | ||
【主权项】:
1.一种基于多标记学习和贝叶斯网络的中医症型分类预测方法,其特征在于步骤如下:步骤1:根据收集到的t个中医病例,整理了s种四诊症状,选择以二值方式为特征赋值,如果病人出现某一症状,则该症状赋值为1,反之为0,由此得到每个样本的特征集xi=(xi1,xi2,…,xis),其中i=1,…,t;同时,根据中医病例整理出k种常见的糖尿病症型,针对每个样本,如果该样本对应标记集中有某一症型,则为该症型赋值1,反之为0,由此得到每个样本的标记集Yi=(yi1,yi2,…,yik),其中i=1,…,t,将每个样本的特征集和标记集一一对应对应得到一个数据集S={(x1,Y1),(x2,Y2),…,(xt,Yt)},将数据集S分为训练数据集D={(x1,Y1),(x2,Y2),…,(xm,Ym)}和测试数据集K={(x1,Y1),(x2,Y2),…,(xn,Yn)};步骤2:将样本的标记集Yi=(yi1,yi2,…,yik)输入到Bayesian DAG learning工具包中,使用Bayesian DAG learning工具包中所提供动态规划算法DP来计算得到最优贝叶斯网络模型;步骤3:根据贝叶斯网络模型读取训练数据集D中每个样本标记的父节点信息pa=(p1,p2,…,pk),将已有s维的四诊信息与k维的父节点信息融合,得到了一个s+k维的训练数据的增广特征集:xi′=xi∪pai=(xi1,xi2,…,xis,pi1,pi2,…,pik);步骤4:使用训练数据集 D 的特征集x1,x2,…,xm和它们的父节点信息pa1,pa2,…,pam分别作为训练数据和训练数据的标记集,训练得到一个多标记神经网络,使用这个多标记神经网络来预测测试数据集K中每个样本标记的父节点信息;然后将父节点信息与测试数据四诊信息融合,形成测试数据的增广特征集;步骤5:将增广训练数据集D’={(x1′,Y1),(x2′,Y2),…,(xn′,Yn)}平均分成两份D1’,D2’用来训练出最优特征子集;使用训练数据D1’来随机生成新的特征子集共100组,将100组特征子集作为最初解空间,使用模拟退火算法SA进行迭代,每轮迭代中,将经过每组特征子集简化后的训练数据D1’输入多标记分类器,由多标记分类器输出一个指标Average precision作为描述特征子集的适应度,在设定时间Tk搜索解空间里适应度最高的解,即100组的特征子集:BF1’,BF2’,…,BF100’;步骤6:将BF1’,BF2’,…,BF100’作为遗传算法GA的100个初始种群,经过选择、交叉和变异算子,不断迭代产生新的解,每轮迭代中,将经过每组特征子集简化后的训练数据D1’输入多标记分类器,由多标记分类器输出一个指标Average precision作为描述特征子集的适应度,在设定时间Tg内得到适应度最高的100组的特征子集:BF1”,BF2”,…,BF100”;步骤7:将适应度最高的100组解:BF1”,BF2”,…,BF100”作为爬山算法HC的输入,每轮迭代时改变每组特征子集中的任意一个特征值,将经过这组特征子集简化后的训练数据D1’输入多标记分类器,由多标记分类器输出一个指标Average precision作为描述特征子集的适应度,在设定时间Th内计算选出适应度最优的一组,将其作为最优特征子集BF;步骤8:使用步骤5‑7对D2’依次进行随机生成新的特征子集共100组、模拟退火算法SA、遗传算法GA、爬山算法HC迭代,得到最优特征子集BF’,比较BF和BF’的适应度,选取适应度高的那组作为最终的最优特征子集;步骤9:将增广测试数据集中的增广特征集按照步骤8得到的最终最优特征子集的特征序号进行特征选择,将训练数据集和测试数据集中的增广特征集替换为最优特征子集,分别得到了最优训练数据集DBF和最优测试数据集KBF;最后使用DBF训练多标记分类器,并在KBF上完成测试。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710027490.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种输血管理系统
- 下一篇:一种基于实验室自动化系统的样本重测方法及系统