[发明专利]基于多维特征和模型融合的提高预测血尿酸精度的方法有效
申请号: | 201910355425.7 | 申请日: | 2019-04-29 |
公开(公告)号: | CN110120265B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 于瑞国;潘丽;赵满坤;高洁;于健;李雪威;喻梅;安永利 | 申请(专利权)人: | 天津大学 |
主分类号: | G16H50/70 | 分类号: | G16H50/70 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多维 特征 模型 融合 提高 预测 血尿 精度 方法 | ||
本发明公开了一种基于多维特征和模型融合的提高预测血尿酸精度的方法,包括:对清洗后的数据集中的数字特征和文字特征,分别进行相关系数计算筛选出重要特征;对所述重要特征进行扩充,以此获得更加丰富的特征;根据递归消除从更加丰富的特征中删除无用特征,选择出最佳特征,重复迭代,直至遍历所有的特征;对原始语料进行预处理删除其中的异常符号,并删除无用单词;对预处理后的语料进行分词并通过Doc2vec算法提取特征向量,对特征向量进行训练,将训练结果作为新的特征向量加入到原始特征集中,构建完备的特征集;基于Boosting和Stacking的多模型融合,对完备的特征集进行预测,获取血尿酸值的精度。
技术领域
本发明涉及数据挖掘和机器学习领域,尤其涉及一种基于多维特征和模型融合的提高预测血尿酸精度的方法。
背景技术
最近几年关于血尿酸的研究逐渐变多,但是很少有关于用文字特征的血尿酸预测模型计算血尿酸的值。现在的血尿酸计算方法主要是采用单一的Boosting算法[1],其在一定程度上增强了模型对患病人群的识别能力,提升了模型的准确率。但,采用单一的Boosting算法进行预测存在一些不足,因为Boosting通过训练一个弱学习器不断拟合残差来减小误差,这个过程使得偏差不断减小,同时方差变大,容易导致过拟合。
传统的预测血尿酸值的算法主要有基于Boosting的GBDT[2]算法(梯度提升树)和Xgboost算法[3]。GBDT通过构建决策树[4]的一系列组合来进行预测。不管是分类还是回归构建决策树的重点都在于寻找分裂决策点。对于分类树因为标签为不连续的值,因此可以通过信息增益或者基尼指数来寻找最佳分裂点,其实它们都是基于熵的计算方式,信息基尼指数可以看作是熵公式的泰勒展开式。但是对于回归树来说标签值是连续的,那么此时信息增益和基尼指数就不再适用,此时可以通过计算平方误差来寻找连续值的最佳分裂点。模型通过划分最佳分裂点,主要是对数据进行分类,使得对于每一类的数据,在类内尽量使得数据的方差变小,这样被分为一类的数据之间的相似度比较大。
GBDT算法的优点有很多,其有着较为丰富的非线性变化,不用做很复杂的特征工程就能够具有很强的表达性。但是它的缺点也是很明显的,GBDT作为Boosting算法的成员,它的整个算法过程是串行的,不利于并行化,因此计算过程会比较耗时。同时作为增强的算法通过不断减小偏差、增强容易过度拟合。
Xgboost在GBDT基础上进行了一系列的改进。首先,在构建树的过程中Xgboost加入了正则化项,这样可以表达一些线性关系,此时模型相当于一个逻辑回归。同时,Xgboost在计算损失函数时引入二次函数,当不为二次的时候对函数进行二次泰勒展开进行近似计算,二阶函数有着更快的收敛性。其次,Xgboost引入相当于学习率的shrinkage概念。
类似于随机森林的列采样,Xgboost引入列抽样来提高计算速度减少过拟合。Xgboost可以自动处理缺失值。
现有医学领域成果大多数是基于统计和生理标注,需要对病人进行跟踪检查,耗时比较长,统计人群规模较大、成本较高。
发明内容
本发明提供了一种基于多维特征和模型融合的提高预测血尿酸精度的方法,本发明能够实现较高的精度识别,对进一步研究血尿酸有着重要价值,详见下文描述:
一种基于多维特征和模型融合的提高预测血尿酸精度的方法,所述方法包括以下步骤:
对清洗后的数据集中的数字特征和文字特征,分别进行相关系数计算筛选出重要特征;对所述重要特征进行扩充,以此获得更加丰富的特征;
根据递归消除从更加丰富的特征中删除无用特征,选择出最佳特征,重复迭代,直至遍历所有的特征;
对原始语料进行预处理删除其中的异常符号,并删除无用单词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910355425.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种哮喘的预后评估方法及装置
- 下一篇:骨骼年龄评估方法