[发明专利]一种确定偏最小二乘回归潜变量数的方法在审
申请号: | 201711122113.9 | 申请日: | 2017-11-14 |
公开(公告)号: | CN109783772A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 张辞海;彭黔荣;胡芸;刘娜 | 申请(专利权)人: | 贵州中烟工业有限责任公司 |
主分类号: | G06F17/18 | 分类号: | G06F17/18 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 550001*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练集 稳定性参数 子模型 偏最小二乘回归 交互验证法 回归系数 测试集 采集 预测 记录 | ||
本发明公开了一种确定偏最小二乘回归潜变量数的方法,包括:选择潜变量数,基于采集到的样品,采用交互验证法选择N个子训练集和与之一一对应的N个子测试集;利用N个所述子训练集建立N个子模型,并利用与所述子训练集对应的子模型对与所述子训练集对应的子测试集进行预测;记录每个所述子模型的回归系数,并根据每个所述子模型的回归系数计算得到所述潜变量数对应的稳定性参数;选择另一个潜变量数,继续进行基于所述样品采用所述交互验证法建立多个子模型的步骤;确定所述稳定性参数最大时对应的潜变量数为最优潜变量数。稳定性参数随潜变量数变化的曲线具有先上升后下降的特点,方便工作人选确定最优潜变量数,从而建立稳定性良好的模型。
技术领域
本发明涉及数据分析与处理领域,特别是涉及一种确定偏最小二乘回归潜变量数的方法。
背景技术
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
在某些特定的领域,如现代分析化学所要处理的化学数据往往是一些具有小样本数,但是却拥有很庞大的变量数的高维数据。这样的数据被称为“large p,small n”问题,对于统计学这是一个很有挑战的问题。
偏最小二乘回归(PLSR)是一种能够处理变量数多于样本数(p>n)问题的一种常用方法。潜变量(LV)数的确定决定着偏最小二乘回归模型的质量,用过少的潜变量数进行建模,会造成“欠拟合”(under-fitting),用过多的潜变量数进行建模又会造成“过拟合”(over-fitting)。
目前最为常用的确定偏最小二乘回归模型潜变量数的方法是交互验证(CV)法。这种方法是将通过交互验证得到的交互验证均方根误差或决定系数作为标准来选取偏最小二乘回归模型的潜变量数,并认为能够得到最小交互验证均方根误差或最接近1的决定系数的潜变量数所建立的偏最小二乘回归模型为最优。但是以这种标准来选取潜变量数时,经常会遇到交互验证均方根误差一直减小(或决定系数一直趋近于1),或者是不同的潜变量数所建立的偏最小二乘回归模型的预测能力差别微小(或决定系数间差别微小),从而难以确定潜变量数的情况。这个时候如果还是按照这种原则确定潜变量数,往往会造成选择了过多的潜变量数进而造成偏最小二乘回归模型的过拟合。
因此,如何避免在建立偏最小二乘回归模型时出现因选择了过多的潜变量数造成的过拟合的情况,是本领域技术人员需要解决的技术问题。
发明内容
本发明的目的是提供一种确定偏最小二乘回归潜变量数的方法,用于避免在建立偏最小二乘回归模型时出现因选择了过多的潜变量数造成的过拟合的情况。
为解决上述技术问题,本发明提供一种确定偏最小二乘回归潜变量数的方法,包括:
计算各潜变量数对应的稳定性参数;
确定所述稳定性参数最大时对应的潜变量数为最优潜变量数;
其中,计算潜变量数对应的稳定性参数具体包括:
基于采集到的样品,采用交互验证法选择N个子训练集和与之一一对应的N个子测试集;其中,所述N为正整数;
利用各所述子训练集建立当前潜变量数对应的子模型,并利用与所述子训练集对应的子模型对与所述子训练集对应的子测试集进行预测;
记录每个所述子模型的回归系数,并根据每个所述子模型的回归系数计算得到所述潜变量数对应的稳定性参数。
可选地,所述计算各潜变量数对应的稳定性参数具体包括:
按从小到大的顺序排列各所述潜变量数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州中烟工业有限责任公司,未经贵州中烟工业有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711122113.9/2.html,转载请声明来源钻瓜专利网。