[发明专利]一种基于特征权重的LARS糖尿病预测方法在审
申请号: | 201910340600.5 | 申请日: | 2019-04-25 |
公开(公告)号: | CN110060781A | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 高秀娥;陈波;陈世峰;桑海涛;胡玲艳 | 申请(专利权)人: | 岭南师范学院 |
主分类号: | G16H50/50 | 分类号: | G16H50/50;G06F17/18;G06F17/16 |
代理公司: | 广州市南锋专利事务所有限公司 44228 | 代理人: | 李慧 |
地址: | 524000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 糖尿病 特征权重 残差 糖尿病预测模型 回归系数向量 相关度 拟合 自变量 数据集矩阵 糖尿病预防 医疗信息化 最大相关度 单位向量 关键特征 初始化 归一化 容忍度 数据集 指标集 预测 范数 筛选 重复 更新 治疗 | ||
本发明涉及医疗信息化技术领域,公开了一种基于特征权重的LARS糖尿病预测方法,具体包括以下步骤:步骤1,归一化糖尿病数据集矩阵,初始化当前拟合值向量和残差向量;步骤2,计算自变量特征权重向量和原始相关度向量;步骤3,计算单位向量、回归系数向量、新相关度向量和最大相关度;步骤4,更新回归系数向量,拟合值向量、残差向量和指标集;步骤5,判断残差向量的L2范数是否小于容忍度,若是则结束,若否则重复步骤3到5,本发明从糖尿病数据集特征出发,筛选出糖尿病关键特征变量,简化了糖尿病预测模型;提高了糖尿病预测模型的准确性,从而有助于提供准确的糖尿病预防与治疗措施。
技术领域
本发明涉及医疗信息化技术领域,具体涉及一种基于特征权重的 LARS糖尿病预测方法。
背景技术
随着糖尿病预测模型的数据特征越来越多、数据维数越来越大,预测模型也变得越来越复杂,传统预测方法难于直接应用于糖尿病的预测中。
数据特征与数据维数的增加使得神经网络预测模型的训练时间复杂度增加、决策树和逻辑回归预测模型的预测准确率和泛化能力降低、支持向量机预测模型难以直接找到关键特征,这对糖尿病预测模型提出了新的挑战。
lasso模型具有回归分类准确率高、泛化能力强等优点,但由于传统的最小角回归LARS算法在求解Lasso回归系数时存在逼近速度慢且准确度不高的问题,因此难以实现将LARS算法用于糖尿病预测。
发明内容
本发明的目的是在于提供一种基于特征权重的LARS糖尿病预测方法,针对现有LARS糖尿病预测方法的不足,根据PCA主成分分析,充分考虑到不同糖尿病特征对预测结果的影响,给出了改进的特征自变量与因变量相关度的计算方法,简化糖尿病预测模型,提出了基于特征权重的LARS糖尿病预测方法。
为解决上述发明的目的,本发明提供技术方案如下:
一种基于特征权重的LARS糖尿病预测方法,包括如下步骤:
步骤1,归一化糖尿病数据集矩阵,初始化当前拟合值向量和残差向量;
步骤2,计算自变量特征权重向量和原始相关度向量;
步骤3,计算角平分向量、回归系数向量、新相关度向量和最大相关度;
步骤4,更新回归系数向量,拟合值向量、残差向量和指标集;
步骤5,判断残差向量的L2范数是否小于容忍度,若是则结束,否则重复步骤3至步骤5。
进一步的,所述步骤1的糖尿病数据集特征之间差值大,需对每个特征值进行归一化;所述当前拟合值为当前迭代的预测值,残差为真实值与当前预测值的差,其计算方式为:
式中,μ为当前拟合值向量;y为真实值向量。
进一步的,所述步骤2中计算原始特征自变量与y的相关度公式为:c=XTy
所述计算特征自变量的特征权重的公式为:
式中,为特征方程的特征值,
特征方程中R为糖尿病数据集矩阵的协方差矩阵,其计算公式为:
式中,θi为第i个特征的均值。
进一步的,所述步骤3中,计算新相关度的计算公式为:C=cTβ
式中,c=XT(y-μA),μA为前一步的拟合值;β为求得各特征自变量的特征权重向量,其相关度最大值为:C_max=max{|C|}
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于岭南师范学院,未经岭南师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910340600.5/2.html,转载请声明来源钻瓜专利网。