[发明专利]一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法在审
申请号: | 201811147588.8 | 申请日: | 2018-09-29 |
公开(公告)号: | CN108844917A | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 王丽丽;焦德晓;房常峰 | 申请(专利权)人: | 山东大学 |
主分类号: | G01N21/359 | 分类号: | G01N21/359 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 叶亚林 |
地址: | 250199 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 显著性 近红外光谱数据 假设检验 偏最小二乘法 近红外光谱 偏最小二乘 数据处理量 波段信息 光谱数据 回归模型 快速提取 特征波段 特征子集 提取特征 同种物质 有效特征 分析 正确率 维数 定性 衡量 | ||
本发明涉及一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法。本发明所述近红外光谱数据分析方法,显著性假设检验采用显著性参数衡量数据的重要性,利用不同的分数提取特征波段信息,得到的特征子集维数较小,减少数据处理量,有效提取同种物质近红外光谱明显差异的特征波段,实现对光谱数据的有效特征快速提取;结合偏最小二乘定性回归模型提高了识别正确率。
技术领域
本发明涉及一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法,属于近红外光谱数据分析处理的技术领域。
背景技术
近红外光谱分析技术是一种发展速度很快的成分快速分析技术,具有分析速度快、分析效率高、分析成本低、测试重现性好、无损测量、便于实现在线分析的特点,被广泛应用在农业、食品、医药等领域。
由于不同的物质对近红外光的吸收程度不一样,因此利用近红外光谱进行物质识别,选出特征差异比较明显的特征波长,建立校正模型。目前常用的特征波段选择算法复杂计算量大、速度慢、识别率低。
主成分分析-马氏距离法,首先利用主成分分析法将样本的光谱数据降维,得到主成分载荷矩阵和得分矩阵,然后利用得分向量计算马氏距离,最后结合设定阈值将异常样本剔除。张灵帅等人利用近红外光谱的主成分分析-马氏距离聚类判别卷烟的真伪,结果前4个的主成分贡献率已达到了98.46%,说明4个主成分就可以代表原始光谱主要的信息;120个样本随机抽取100个建立4个主成分的定性判别模型,其相关系数达到了0.95;对20个未知样本做预测,准确率达到100%。
显著性差异处理,是一种特征选择的方法。该方法是计算每组数据与其他组数据的显著性分数,然后逐个与设定好的显著性分数做比较,如果大于设定好的显著性分数,说明差异比较大,可作为分类的重要依据。王东利用显著性假设检验方法有效的对癌症基因进行特征选择,并且利用特征数据进行建模,分类的精度达到了99.02%。
发明内容
针对现有技术的不足,本发明提供一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法。
本发明的技术方案为:
一种基于显著性假设检验和偏最小二乘法的近红外光谱数据分析方法,包括以下步骤:
(1)采集样本的近红外光谱数据,并进行样本预处理;所述样本预处理的方法为主成分分析-马氏距离法;
(2)将样本预处理后的数据进行显著性差异处理;具体步骤为:设波长对应属性吸光度有n个类C1,C2,…Ci…,Cn;n个类对应的属性均值分别是每一类的显著分数为zl;设定zl的阈值;如果显著分数zl超过设定的阈值,判定相应的波段差异较大,相应的波长数据为重要数据,并且保留该波长数据;
显著性差异参数zl采用以下公式:
其中:l表示波长,是l波长Cj类吸光度的平均值;是l波长Ci类吸光度的平均值;sli是l波长Ci类吸光度的方差;ni是Ci类样本数;slj是l波长Cj类吸光度的方差;nj是Cj类样本数;显著性差异处理的有益效果是,放大有用波段,减少光谱数据,提高建模速度和分类准确率。
(3)将显著性差异处理后的数据按比例分为训练集和预测集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811147588.8/2.html,转载请声明来源钻瓜专利网。