[发明专利]一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法在审

专利信息
申请号: 202111195188.6 申请日: 2021-10-13
公开(公告)号: CN113933334A 公开(公告)日: 2022-01-14
发明(设计)人: 陈谊;斗海峰;张紫娟;范春林;李海生;张佳琳;刘鸣畅 申请(专利权)人: 北京工商大学;中国检验检疫科学研究院
主分类号: G01N24/08 分类号: G01N24/08;G06N20/00
代理公司: 北京万象新悦知识产权代理有限公司 11360 代理人: 黄凤茹
地址: 100048*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 特征 选择 机器 学习 算法 洋槐 真伪 鉴别方法
【权利要求书】:

1.一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法,其特征是,包括:采集真假蜂蜜样品并生成洋槐蜜数据;对洋槐蜜数据进行真假标注得到洋槐蜜数据集;通过谱图特征选择得到低维洋槐蜜数据集;构建蜂蜜真假鉴别模型RF-XGBoost;对模型进行参数优化和模型验证;利用模型对待测蜂蜜进行真伪鉴别;具体包括以下步骤:

A:采集和制备蜂蜜样品,包括真蜂蜜样品和假蜂蜜样品,并生成洋槐蜜数据;

通过核磁共振技术,对蜂蜜样品进行NOESY 1D检测,得到检测蜂蜜样品的一维氢信号谱图,进而对谱图进行数字化转换,得到多个反映洋槐蜜样品谱图特征的真假洋槐蜜数据记录;

B:对洋槐蜜数据记录进行真假标注,得到洋槐蜜数据集;

对步骤A中得到的洋槐蜜数据中的每一条记录添加真假标签属性,用于表示洋槐蜜为真蜂蜜或掺假蜂蜜;每一条记录按照一定规则再添加一个样本名称属性;将得到的洋槐蜜数据集记为D;洋槐蜜数据集D包括反映洋槐蜜样品谱图的多个特征;

C:选择谱图特征;

从洋槐蜜数据集D反映谱图特征的多个特征中选择重要性程度大的前p个特征为最终特征集合,根据最终特征集合得到低维的洋槐蜜数据集,记为D′,用于模型的构建和训练;

具体是采用随机森林算法得到洋槐蜜数据集D中每个特征的重要性大小,并对特征重要性程度大小进行排序;然后选取前p个特征为最终特征集合;包括如下步骤:

C1:构建包含多棵决策树的随机森林;

随机森林中的每一棵决策树均为二叉树,即为一个分类器;决策树中的每个节点表示洋槐蜜数据集的一个子集;节点纯度最高的特征作为最优特征;

C2:特征重要性评估:计算每个特征Cj的重要性评分VIMj,即计算第j个特征Cj在随机森林所有决策树中节点分裂纯度的平均改变量;

计算洋槐蜜数据集D中每个特征在随机森林中的每棵决策树上的贡献;取平均值,得到每个特征的贡献程度即重要性程度,采用基尼Gini指数表示;Gini指数值越小表示集合中被选中的元素被分错的概率越小,也就是集合的纯度越高;

通过式(4)计算得到Gini指数的值:

式中,GIm为决策树中节点m的Gini值;pmk代表节点m中样本属于第k类的概率估计值,K代表样本集的类别个数;

类别分为真蜂蜜和假蜂蜜两个类别,即K=2,此时节点m的Gini指数为式(5):

GIm=2pm(1-pm) (5)

其中,pm为洋槐蜜样本在节点m属于任意一类的概率估计值;

设决策树分枝时,根据特征F是否取某一可能的值f,将洋槐蜜数据集合D分割成D1和D2两部分,即:D1={(x,y)∈D|F(x)=f},D2=D-D1;其中x为洋槐蜜样本,y为样本x对应的标签值;则在特征F在取值f的条件下,集合D的基尼指数定义为式(6):

其中,和由式(5)计算,|D|表示集合D中样本的个数;

特征Cj在节点m中的重要性即决策树中的节点m分枝前后的Gini指数变化量,由式(7)计算得到:

其中,GIL和GIR分别表示分枝之后两个新节点的Gini指数;

如果特征Cj在第l棵决策树中出现M次,则Cj在第l棵树的重要性表示为:

若随机森林共有n棵决策树,特征Cj在随机森林中的重要性表示为:

将所有求得的重要性评分进行归一化处理,得到重要性评分VIMj

C3:特征选取;包括:

使用洋槐蜜数据集D中176个特征的重要性评分,根据重要性进行降序排序之后得到特征序列λ(λ12,…,λp,…,λ176),假定阈值为γ,当前p个特征的重要性之和大于等于γ,即时,选择λ12,…,λp为最终的特征集合,得到p+2维的洋槐蜜数据集D′;

D:构建并训练洋槐蜜真伪鉴别模型,得到训练好的洋槐蜜真伪鉴别模型;

D1:基于洋槐蜜数据集D′,利用scikit-learn机器学习库的XGBClassifier方法构建洋槐蜜真伪鉴别模型,记为RF-XGBoost;

基于树集成模型XGBoost,对于每一个洋槐蜜样本xi,根据式(11)累加多棵树的预测值来计算该样本最终的预测值表示为:

式中,K是决策树的总数量;为样本xi的预测值;fk(xi)为决策树k对洋槐蜜样本xi的预测值;F是假设空间,表示为式(12):

F={f(x)=ωq(x)}(q:R→T,ω∈RT) (12)

式中,q(x)表示将洋槐蜜样本x映射到决策树对应的叶子节点中,T是决策树中叶子节点的个数,ωq(x)是叶子节点对洋槐蜜样本x的预测值;

使用目标函数求解每个叶子节点的最优预测值,使得目标函数最小的ω值即为每个叶子节点对洋槐蜜样本的最优预测值;目标函数Obj由损失函数和正则化项两部分组成,表示为式(13):

其中,为损失函数,即训练误差,Ω(fk)为正则化项,用于控制模型的复杂度;其中的正则化项表示为式(14):

式中,T为叶子节点个数;γ用于控制叶子节点个数;λ为通过控制叶子节点的分数,用于防止过拟合;

D2:训练洋槐蜜真伪鉴别模型RF-XGBoost;

将洋槐蜜数据集D′划分为训练数据集和测试数据集;使用训练数据集对RF-XGBoost进行模型训练,采用GridSearchCV模型调参方法对XGBClassifier方法中的参数进行优化,参数包括:决策树个数、决策树的深度、训练样本子采样比例、训练样本的特征采样比例、惩罚项系数、学习率,得到训练好的洋槐蜜真伪鉴别模型;

E、对待鉴别的洋槐蜜样品进行NOESY 1D检测,得到待测样品的一维氢信号谱图;并对谱图进行数字化转换,得到反映样品谱图特征的洋槐蜜数据;利用训练好的洋槐蜜真伪鉴别模型进行洋槐蜜真伪鉴别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学;中国检验检疫科学研究院,未经北京工商大学;中国检验检疫科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111195188.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top