[发明专利]一种基于类间混合决策树的健康信息处理方法在审
申请号: | 202310089089.2 | 申请日: | 2023-02-09 |
公开(公告)号: | CN116230207A | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 陈松灿;李丹 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G06F18/214;G06F18/2431;G06N20/20;G06N5/01 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 于瀚文 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 决策树 健康 信息处理 方法 | ||
本发明提供了一种基于类间混合决策树的健康信息处理方法,包括:步骤1,获取包含用户身体数据的训练集X;步骤2,基于训练集X建立目标函数,并得到最优解;步骤3,将数据划分为不相交的分区,直到节点变纯或样本数小于预定义的阈值。本发明旨在获得一个新的类间混合Universum决策树,结合Universum先验知识的同时避免不纯度计算,进而在各现实场景(如疾病诊断、天气预测、异常检测等)中发挥更高效的作用。此外,应用混合诱导的Universum(MIU)来生成类间Universum样本,并通过随机采样MIU为决策森林中的决策树提供多样性,从而获得更高的疾病预测精度。
技术领域
本发明属于模式识别领域,尤其涉及一种基于类间混合决策树的健康信息处理方法。
背景技术
决策树作为一种历史悠久的监督学习算法,近年来取得了长足的进步并受到了人们的广泛关注。最近的研究表明,决策树在处理表格数据方面优于神经网络。在医学疾病诊断领域,大部分数据皆为表格型数据,因而决策树在疾病诊断领域具有先天优势。此外,决策树还能处理金融、医疗、入侵检测、天气预测和许多其他领域的难题。然而,现存的决策树都面临着一个重要的问题,即节点分裂准则。对于轴平行决策树,合适的纯度度量是其分裂准则的关键。对于斜决策树,可以将不同的分类器或决策函数作为其分裂准则。虽然斜决策树平滑了轴平行决策树的决策超平面从而获得更好的性能,但它损害了轴平行决策树的可解释性。Universum学习和决策树之间的结合还未得到充分的探索。可能是因为难以将Universum数据集嵌入到二元决策树构建过程中。在引入Universum数据集的情况下,难以度量内部节点的不纯度。此外,在树生长过程中,难以确定应该将Universum数据分配给哪个子节点或分支。
在模式识别领域,适当的先验知识有助于获得更好的学习模型。Universum先验知识假设除给定数据外,通常还有不属于任何已知类的其他域内数据。基于Universum的算法已经在监督学习、无监督学习和降维等领域取得了经验上的成功。然而,迄今为止,Universum还没有被应用到决策树这一学习范式中。有两个难点:首先,难以将Universum直接嵌入到决策树构建中,因为Universum数据的引入会混淆决策树节点分裂的不纯度计算。其次,即便Universum可以嵌入决策树构建,设计不当的Universum也会降低决策树的性能。
发明内容
发明目的:现有的决策树算法在进行疾病预测时,依赖于穷举搜索的方式,较为耗时且预测能力有限。本发明所要解决的技术问题是针对现有技术的不足,提供一种类间混合Universum决策树算法,更加有效和高效地进行疾病诊断和预测。
本发明提出了一种新型的一种基于类间混合决策树的健康信息处理方法来规避现有技术的问题,并应用于医学诊断领域。具体来说,本发明试图通过最小化分类超平面和Universum样本之间的距离,即引入一个正则化项,来选择最优分裂特征。受几何平均度量学习的启发,本发明旨在其对角化度量矩阵的约束下优化一个分裂准则,以获得每个特征的判别权重,从而找到最优的分类超平面,并以此代替传统决策树在整个特征空间上基于纯度度量的穷举搜索。此外,本发明优化目标函数获得最具判别性的分裂特征,以避免Universum数据集的存在混淆了纯度计算。分布在分类超平面周围的Universum样本是难分样本。如果在节点分裂时考虑难分样本,就能在每个内部节点获得一个更好的轴平行分类超平面。
本发明将几何平均度量学习和Universum学习相结合,从而获得一个闭式解。具体而言,优化一个严格凸的目标函数,以获得全局最优解,该最优解表示内部节点上每个候选特征的判别权重。直观地说,在内部节点的最优分裂特征上:每个类内的方差较小,而不同类的样本之间距离较远。此外,将Universum样本作为目标域的先验知识嵌入目标函数中。具体来说,本发明迫使Universum样本,即难分样本,紧凑地分布在决策面周围。
实现本发明目的的技术解决方案为:一种基于类间混合决策树的健康信息处理方法,所述方法包括以下步骤:
步骤1,获取包含用户身体数据的训练集X;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310089089.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种轮胎助剂配料称量装置
- 下一篇:一种可抵潮汐作用的大型LNG船登船浮桥