[发明专利]机器学习中的特征筛选方法和装置在审
申请号: | 201910735048.X | 申请日: | 2019-08-09 |
公开(公告)号: | CN112348043A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 邓志辉;呼志刚 | 申请(专利权)人: | 杭州海康机器人技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 谢安昆;宋志强 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器 学习 中的 特征 筛选 方法 装置 | ||
本发明提供一种机器学习中的特征筛选方法和装置,该方法包括:获取候选特征集合,针对候选特征集合中的每个候选特征,执行以下操作:利用该候选特征对样本集进行分类,样本集包含多个种类的样本数据;计算每个种类的样本数据中、被正确分类的样本数据的数目与该种类的样本数据的总数目的比值,作为该候选特征对该种类的样本数据的识别率;当该候选特征对每个种类的样本数据的识别率符合预设条件时,确定该候选特征通过筛选。基于本发明的方法,可以根据预设要求自动判断候选特征m是否可用于后续的机器学习建模,从而极大减少人工成本和时间成本,提升工作效果。
技术领域
本发明涉及计算机技术领域,特别涉及一种机器学习中的特征筛选方法和装置。
背景技术
目前在人工智能领域中,利用机器学习技术对图像、文本或其他输入数据进行分类时,需要工程人员利用业务经验,人为地设计或者选择用于分类的特征;然后再综合特征的可解释性以及指标等不同维度对特征进行详细优化;接着,再进行测试验证。
然而,一旦被测物体发生改变,即使是比较微小的变换,上述过程又需要重头开始。这中间的每步都需要大量地人工进行干预,使得人工筛选特征的工作量巨大,并导致建模的周期拉长,已经成为了整个建模开发周期的瓶颈。而且分类特征的选取直接影响到模型的训练效果,也要求建模人员具备较强的业务经验。
因此,采用人工选取特征的方法,要求高、效率低且容易出错。
发明内容
有鉴于此,本发明提供一种机器学习中的特征筛选方法和装置,以解决现有人工选取特征的问题。
本发明提供一种机器学习中的特征筛选方法,该方法包括:
获取候选特征集合,针对候选特征集合中的每个候选特征,执行以下操作:
利用该候选特征对样本集进行分类,样本集包含多个种类的样本数据;
计算每个种类的样本数据中、被正确分类的样本数据的数目与该种类的样本数据的总数目的比值,作为该候选特征对该种类的样本数据的识别率;
当该候选特征对每个种类的样本数据的识别率符合预设条件时,确定该候选特征通过筛选。
本发明还提供一种机器学习中的特征筛选装置,该装置包括:
获取模块:获取候选特征集合,针对候选特征集合中的每个候选特征,执行以下模块:
测试模块:利用该候选特征对样本集进行分类,样本集包含多个种类的样本数据;
计算模块:计算每个种类的样本数据中、被正确分类的样本数据的数目与该种类的样本数据的总数目的比值,作为该候选特征对该种类的样本数据的识别率;
筛选模块:当该候选特征对每个种类的样本数据的识别率符合预设条件时,确定该候选特征通过筛选。
本发明还提供一种非瞬时计算机可读存储介质,非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行上述的机器学习中的特征筛选方法中的步骤。
本发明还提供一种机器学习中的特征筛选装置,包括处理器和上述的非瞬时计算机可读存储介质。
本发明的机器学习中的特征筛选方法,可以根据预设要求自动判断候选特征m是否可用于后续的机器学习建模或用于识别待分类对象,从而极大减少人工成本和时间成本,提升工作效果。
附图说明
图1为本发明实施例提供的机器学习中的特征筛选方法的流程图;
图2为样本数据在识别前后的示意图;
图3为本发明机器学习中的特征筛选装置的结构图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康机器人技术有限公司,未经杭州海康机器人技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910735048.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种洗扫车及其风机-散热器模块
- 下一篇:一种当归护发营养液