[发明专利]一种特征集合处理方法及系统在审
申请号: | 201910528083.4 | 申请日: | 2019-06-18 |
公开(公告)号: | CN112101398A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 刘彦南;王坤 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06N20/00;G06Q10/04 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 集合 处理 方法 系统 | ||
本发明提供一种特征集合处理方法及系统,该方案包括:在预设模型评估周期内,确定当前机器学习模型预测每个被测样本的预测结果、及当前机器学习模型中每个特征对于每个被测样本的预测结果的影响数据,基于每个被测样本的预测结果,修正每个特征对于每个被测样本的预测结果的影响数据,累加每个特征各自对应所有被测样本的影响数据,得到每个特征的总影响数据,基于每个特征的总影响数据进行筛选,得到由N个特征构成的最优特征集合。基于本发明,保证能够提取出最优的特征,构建最优特征集合,进一步提高后续针对机器学习模型的训练效果。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种特征集合处理方法及系统。
背景技术
随着科技的日新月异,人工智能越来越受到人们的关注。机器学习作为人工智能的核心分支,人们对机器学习的研究也越来越深入。
机器学习模型的预测能力与所用特征的质量正相关。目前,基于训练样本集合一次性提取出机器学习模型所用特征,所得到的特征在后续机器学习模型训练过程中保持不变。但是,受限于训练样本集合中的数据的完整程度,所提取出的特征未必完整或者说最优,进而导致后续针对机器学习模型的训练效果低下。
发明内容
有鉴于此,本发明实施例提供一种特征集合处理方法及系统,以解决现有机器学习模型因特征不完善而导致训练效果低下的问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开了一种特征集合处理方法,所述特征集合处理方法包括:
在预设模型评估周期内,确定当前机器学习模型预测每个被测样本的预测结果、及当前机器学习模型中每个特征对于每个被测样本的预测结果的影响数据,所述特征用于训练所述当前机器学习模型;
基于所述每个被测样本的预测结果,修正所述每个特征对于每个被测样本的预测结果的影响数据;
累加所述每个特征各自对应所有被测样本的影响数据,得到所述每个特征的总影响数据;
基于所述每个特征的总影响数据进行筛选,得到由N个特征构成的最优特征集合,N为正整数。
可选的,在上述特征集合处理方法中,还包括:
利用所述最优特征集合对所述当前机器学习模型进行训练,得到新的机器学习模型。
可选的,在上述特征集合处理方法中,所述在预设模型评估周期内,确定当前机器学习模型预测每个被测样本的预测结果、及当前机器学习模型中每个特征对于每个被测样本的预测结果的影响数据,包括:
在预设模型评估周期内,针对每个被测样本,确定所述当前机器学习模型预测所述每个被测样本的第一预测结果、及缺少单个特征的当前机器学习模型预测所述每个被测样本的第二预测结果;
将所述每个被测样本的第一预测结果和第二预测结果进行比较,得到所述单个特征针对于所述每个被测样本所对应的不同预测结果差异,并作为所述当前机器学习模型中每个特征对于每个被测样本的预测结果的影响数据。
可选的,在上述特征集合处理方法中,所述基于所述每个被测样本的预测结果,修正所述每个特征对于每个被测样本的预测结果的影响数据,包括:
获取所述每个被测样本的实际结果、及所述每个特征的初始影响数据;
判断所述每个被测样本的实际结果是否与预测结果一致;
若一致,针对所述每个特征,将特征的初始影响数据作为增加数据,对所述每个特征对于每个被测样本的预测结果的影响数据进行增加修正;
若不一致,针对所述每个特征,将特征的初始影响数据作为增加数据,对所述每个特征对于每个被测样本的预测结果的影响数据进行删减修正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910528083.4/2.html,转载请声明来源钻瓜专利网。