[发明专利]一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法在审
申请号: | 202111195188.6 | 申请日: | 2021-10-13 |
公开(公告)号: | CN113933334A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 陈谊;斗海峰;张紫娟;范春林;李海生;张佳琳;刘鸣畅 | 申请(专利权)人: | 北京工商大学;中国检验检疫科学研究院 |
主分类号: | G01N24/08 | 分类号: | G01N24/08;G06N20/00 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 选择 机器 学习 算法 洋槐 真伪 鉴别方法 | ||
1.一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法,其特征是,包括:采集真假蜂蜜样品并生成洋槐蜜数据;对洋槐蜜数据进行真假标注得到洋槐蜜数据集;通过谱图特征选择得到低维洋槐蜜数据集;构建蜂蜜真假鉴别模型RF-XGBoost;对模型进行参数优化和模型验证;利用模型对待测蜂蜜进行真伪鉴别;具体包括以下步骤:
A:采集和制备蜂蜜样品,包括真蜂蜜样品和假蜂蜜样品,并生成洋槐蜜数据;
通过核磁共振技术,对蜂蜜样品进行NOESY 1D检测,得到检测蜂蜜样品的一维氢信号谱图,进而对谱图进行数字化转换,得到多个反映洋槐蜜样品谱图特征的真假洋槐蜜数据记录;
B:对洋槐蜜数据记录进行真假标注,得到洋槐蜜数据集;
对步骤A中得到的洋槐蜜数据中的每一条记录添加真假标签属性,用于表示洋槐蜜为真蜂蜜或掺假蜂蜜;每一条记录按照一定规则再添加一个样本名称属性;将得到的洋槐蜜数据集记为D;洋槐蜜数据集D包括反映洋槐蜜样品谱图的多个特征;
C:选择谱图特征;
从洋槐蜜数据集D反映谱图特征的多个特征中选择重要性程度大的前p个特征为最终特征集合,根据最终特征集合得到低维的洋槐蜜数据集,记为D′,用于模型的构建和训练;
具体是采用随机森林算法得到洋槐蜜数据集D中每个特征的重要性大小,并对特征重要性程度大小进行排序;然后选取前p个特征为最终特征集合;包括如下步骤:
C1:构建包含多棵决策树的随机森林;
随机森林中的每一棵决策树均为二叉树,即为一个分类器;决策树中的每个节点表示洋槐蜜数据集的一个子集;节点纯度最高的特征作为最优特征;
C2:特征重要性评估:计算每个特征Cj的重要性评分VIMj,即计算第j个特征Cj在随机森林所有决策树中节点分裂纯度的平均改变量;
计算洋槐蜜数据集D中每个特征在随机森林中的每棵决策树上的贡献;取平均值,得到每个特征的贡献程度即重要性程度,采用基尼Gini指数表示;Gini指数值越小表示集合中被选中的元素被分错的概率越小,也就是集合的纯度越高;
通过式(4)计算得到Gini指数的值:
式中,GIm为决策树中节点m的Gini值;pmk代表节点m中样本属于第k类的概率估计值,K代表样本集的类别个数;
类别分为真蜂蜜和假蜂蜜两个类别,即K=2,此时节点m的Gini指数为式(5):
GIm=2pm(1-pm) (5)
其中,pm为洋槐蜜样本在节点m属于任意一类的概率估计值;
设决策树分枝时,根据特征F是否取某一可能的值f,将洋槐蜜数据集合D分割成D1和D2两部分,即:D1={(x,y)∈D|F(x)=f},D2=D-D1;其中x为洋槐蜜样本,y为样本x对应的标签值;则在特征F在取值f的条件下,集合D的基尼指数定义为式(6):
其中,和由式(5)计算,|D|表示集合D中样本的个数;
特征Cj在节点m中的重要性即决策树中的节点m分枝前后的Gini指数变化量,由式(7)计算得到:
其中,GIL和GIR分别表示分枝之后两个新节点的Gini指数;
如果特征Cj在第l棵决策树中出现M次,则Cj在第l棵树的重要性表示为:
若随机森林共有n棵决策树,特征Cj在随机森林中的重要性表示为:
将所有求得的重要性评分进行归一化处理,得到重要性评分VIMj:
C3:特征选取;包括:
使用洋槐蜜数据集D中176个特征的重要性评分,根据重要性进行降序排序之后得到特征序列λ(λ1,λ2,…,λp,…,λ176),假定阈值为γ,当前p个特征的重要性之和大于等于γ,即时,选择λ1,λ2,…,λp为最终的特征集合,得到p+2维的洋槐蜜数据集D′;
D:构建并训练洋槐蜜真伪鉴别模型,得到训练好的洋槐蜜真伪鉴别模型;
D1:基于洋槐蜜数据集D′,利用scikit-learn机器学习库的XGBClassifier方法构建洋槐蜜真伪鉴别模型,记为RF-XGBoost;
基于树集成模型XGBoost,对于每一个洋槐蜜样本xi,根据式(11)累加多棵树的预测值来计算该样本最终的预测值表示为:
式中,K是决策树的总数量;为样本xi的预测值;fk(xi)为决策树k对洋槐蜜样本xi的预测值;F是假设空间,表示为式(12):
F={f(x)=ωq(x)}(q:R→T,ω∈RT) (12)
式中,q(x)表示将洋槐蜜样本x映射到决策树对应的叶子节点中,T是决策树中叶子节点的个数,ωq(x)是叶子节点对洋槐蜜样本x的预测值;
使用目标函数求解每个叶子节点的最优预测值,使得目标函数最小的ω值即为每个叶子节点对洋槐蜜样本的最优预测值;目标函数Obj由损失函数和正则化项两部分组成,表示为式(13):
其中,为损失函数,即训练误差,Ω(fk)为正则化项,用于控制模型的复杂度;其中的正则化项表示为式(14):
式中,T为叶子节点个数;γ用于控制叶子节点个数;λ为通过控制叶子节点的分数,用于防止过拟合;
D2:训练洋槐蜜真伪鉴别模型RF-XGBoost;
将洋槐蜜数据集D′划分为训练数据集和测试数据集;使用训练数据集对RF-XGBoost进行模型训练,采用GridSearchCV模型调参方法对XGBClassifier方法中的参数进行优化,参数包括:决策树个数、决策树的深度、训练样本子采样比例、训练样本的特征采样比例、惩罚项系数、学习率,得到训练好的洋槐蜜真伪鉴别模型;
E、对待鉴别的洋槐蜜样品进行NOESY 1D检测,得到待测样品的一维氢信号谱图;并对谱图进行数字化转换,得到反映样品谱图特征的洋槐蜜数据;利用训练好的洋槐蜜真伪鉴别模型进行洋槐蜜真伪鉴别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学;中国检验检疫科学研究院,未经北京工商大学;中国检验检疫科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111195188.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多类型实时数据插值展示方法与装置
- 下一篇:一种激光无线传导电视