[发明专利]一种基于机器学习的布鲁氏菌病特征选择方法及系统在审
申请号: | 202211370275.5 | 申请日: | 2022-11-03 |
公开(公告)号: | CN115640519A | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 陈超;宋彪;许鸿蕾 | 申请(专利权)人: | 内蒙古卫数数据科技有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/2431;G06N20/00;G06F16/215;G06F18/213 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 符继超 |
地址: | 010010 内蒙古自治区呼和浩特市*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 布鲁氏菌 特征 选择 方法 系统 | ||
本发明公开了一种基于机器学习的布鲁氏菌病特征选择方法及系统,包括:数据获取模块、数据预处理模块、RFE特征排序模块、SHAP分析模块和特征选择模块;该方法为:获取布鲁氏菌病患者及非布鲁氏菌病个体的非空血常规数据并进行预处理;利用递归特征消除RFE得出各特征排序并赋权重;利用随机森林算法构建与训练分类模型,利用SHAP进行可解释性分析,并根据各特征的重要性赋予其权重;分别计算各特征的总权重并降序排列,从首项起依次增加特征构成特征子集,分别进行模型训练与交叉验证,选择最优特征子集为最终的特征集;本发明利用机器学习模型对布鲁氏菌病等分类模型进行多维特征的特征选择过程,降低维度冗余的同时,选择出预测效能较优的特征子集。
技术领域
本发明涉及计算机和医学技术领域,更具体的说是涉及一种基于机器学习的布鲁氏菌病特征选择方法及系统。
背景技术
以布鲁氏菌病(Brucellosis简称布病)分类模型为例,该病是一种由布氏菌侵入机体后引起感染的最广泛的人畜共患病之一,人类主要通过接触带菌动物或食用病畜及其相关乳制品而造成感染。因此,布病的及早预防与识别对遏制疾病的扩散与减缓疾病严重化进程有重要作用。而由于布病建模过程中数据分布范围广、噪声大对模型识别过程中的较大影响,因此对该种分类问题建模过程中的特征工程方法提出了更高的要求。
随着社会信息化的高速发展,数据的复杂性日益增强,医疗数据、消费数据、生物数据等各类数据呈爆发式增长。数据信息在机器学习领域的重要性日益凸显,对于数据中所含隐藏特征和规律的探索也逐渐普遍,高维、海量的数据不仅蕴含了更为丰富多样的信息,为模型预测提供新的可能,同时为数据的处理、模型的学习带来较大挑战,成为亟待解决的问题。
特征选择作为一类能够降低数据维度且提升模型性能的方法被广泛应用。其主要思路是先从特征全集中生成一个特征子集,用某种评价函数对其进行评价,若评价结果优于停止准则,那么就对此特征子集进行有效性验证,反之则重新得出特征子集后重复以上步骤。在特征选择过程中,生成的初始特征子集受搜索策略影响较大,一个特征子集的选取也往往是相对于特定的评价函数而言,不同的评价标准得出的评价结果不尽相同,容易造成最终的最优特征子集并非足够准确,因此,现有的特征选择技术框架仍有较大提升的空间,从而实现模型效率的优化。
现有的特征选择算法都致力于从高维度中选出重要的特征,但它们难以通过单一特征选择算法选择出较全面的特征。
因此,如何提供一种基于机器学习的布鲁氏菌病特征选择方法及系统来实现全面的特征选择,从而提高分类精度,是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于机器学习的布鲁氏菌病特征选择方法及系统,目的在于从原始特征集中选出可靠、准确的特征子集,降低数据特征的冗余及模型学习任务的难度,提升模型的预测效率。
为了实现上述目的,本发明采用如下技术方案:
一种基于机器学习的布鲁氏菌病特征选择方法,包括以下步骤:
S1.获取布鲁氏菌病患者及非布鲁氏菌病个体的非空血常规数据并进行预处理,非空血常规数据包括n维特征,n大于1;
S2.基于预处理后的非空血常规数据集,利用递归特征消除RFE得出各特征的排序,并对所有特征赋予权重;
S3.基于预处理后的非空血常规数据集,利用随机森林模型进行分类模型的构建与训练,对训练后的布鲁氏菌病模型利用SHAP进行可解释性分析,并根据各特征的重要性赋予其权重;
S4.分别计算各特征的总权重并降序排列,从首项起依次增加特征构成特征子集,分别用随机森林模型进行交叉验证和训练,得出对应的准确率,选择准确率最高的特征子集为最终的特征集。
优选的,S1中预处理的具体内容为:
S11.对获取到的非空血常规数据,剔除包含缺失值的样本数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古卫数数据科技有限公司,未经内蒙古卫数数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211370275.5/2.html,转载请声明来源钻瓜专利网。