[发明专利]基于偏最小二乘法的最佳主因子数选择方法在审
申请号: | 201711477618.7 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108255790A | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 刘彤;向轶;许定舟;曾永平;肖青青;凌亚东 | 申请(专利权)人: | 广州讯动网络科技有限公司 |
主分类号: | G06F17/18 | 分类号: | G06F17/18 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 刘巧霞 |
地址: | 510630 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主因子 偏最小二乘法 触发 方法选择 建模 时耗 预设 样本 | ||
本发明公开了一种基于偏最小二乘法的最佳主因子数选择方法,包括步骤:根据样本数量,预设主因子数选择范围、谷底触发限制值和SEP底限值SEPMin,针对每个主因子数ni,如果ni大于谷底触发限制值,且其SEP值同时小于下一个主因子数SEP值以及当前SEPMin,则令最佳主因子数n_com=ni。否则,选择最终SEPMin对应的主因子数作为n_com。通过该方法选择出的最佳主因子数能有效提升模型的稳定性,且在一定条件下降低建模时耗。
技术领域
本发明涉及数据分析偏最小二乘法中参数选择研究领域,特别涉及一种基于偏最小二乘法的最佳主因子数选择方法。
背景技术
近红外光(NIR)是介于紫外-可见光和中红外之间的电磁波,其波长范围为700~2500nm。近红外光能反映含氢基团X—H(如C—H、N—H、O—H等)振动的倍频和合频吸收,不同基团(如甲基、亚甲基、苯环等)或同一基团在不同化学环境中的近红外光吸收波长与强度都有明显差别。因此,近红外光非常适用于含氢有机物质的物化参数测量。
基于现代化学计量学方法,近红外光谱既可以用于定量分析也可以用于定性分析。其中,针对定量分析,该技术应用实施过程中需要前期进行一些必要的准备工作,包括:
(1)具有广泛代表性的定标和预测样品集的收集和成份理化定量分析;
(2)定标和预测样品集的近红外光谱采集和光谱解析;
(3)将物质待测理化成份的与(2)中所采光谱建立回归模型(定标模型);
(4)使用已有定标模型对未知理化成份含量的物质光谱进行实际预测分析。
现有技术中步骤(3)中的回归模型多采用偏最小二乘法创建,该算法的详细计算过程参见国防工业出版社出版的王惠文著《偏最小二乘回归方法及其应用》等。通常,在使用偏最小二乘法建立定量模型时,会使用不同的主因子数(一般选择1,2,…,30)来创建模型,并使用模型评估方法来计算各个主因子数的建模效果,并在所有的主因子数中选择一个模型评估最好的作为该模型的最佳主因子数。
一般模型评估标准是选择SEP最小。然而,在实际应用中,存在模型评估最好的主因子数并不是最合适建模数据集的情况。比如通过SEP最小选择出的主因子数较大,在模型中引入过多不必要的特征信息。另外,若每次都使用固定的主因子数范围(如1-30)来进行模型创建,较大的数据集建模时耗过高。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于偏最小二乘法的最佳主因子数选择方法,通过该方法选择出的最佳主因子数能有效提升模型的稳定性,且在一定条件下降低建模时耗。
本发明的目的通过以下的技术方案实现:基于偏最小二乘法的最佳主因子数选择方法,包括步骤:
根据样本数量,预先设定主因子数选择范围[nMin,nMax],以及谷底触发限制值;初始化设置一SEP底限值SEPMin;
在主因子数选择范围内,按照从小到大的顺序,执行下述步骤:
(1)对于当前主因子数ni,判断其SEP值是否同时小于下一个主因子数SEP值以及当前SEPMin,如果是,执行步骤(2),否则,执行步骤(3);
(2)判断ni是否大于谷底触发限制值,如果大于,则令最佳主因子数n_com=ni,然后停止循环,结束操作;如果ni不大于谷底触发限制值,则将SEPMin更新为当前已知最小SEP值,ni加1,重新回到步骤(1);
(3)判断ni是否大于谷底触发限制值,如果不是,则将SEPMin更新为当前已知最小SEP值,ni加1,重新回到步骤(1);如果是,则执行步骤(4);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州讯动网络科技有限公司,未经广州讯动网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711477618.7/2.html,转载请声明来源钻瓜专利网。