[发明专利]一种基于约束优化进化算法的自动化特征工程方法在审
申请号: | 202110555440.3 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113297293A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 朱光辉;黄宜华;郭旭 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06N3/00;G06N20/00 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 约束 优化 进化 算法 自动化 特征 工程 方法 | ||
本发明公开了一种基于约束优化进化算法的自动化特征工程方法,首先将自动化特征工程问题建模为特征变换函数序列搜索问题,然后将特征变换函数编码为染色体,并根据特征类型对候选特征变换函数的编码空间进行约束,最后利用进化算法迭代搜索出最优的特征变换函数序列。本发明相比于以前方法,不仅能够根据特征类型选择特征变换函数,而且也支持特征变换函数之间的嵌套。另外,也能够取得更好的机器学习模型预测性能。
技术领域
本发明涉及自动化特征工程领域,尤其涉及一种基于约束优化进化算法的自动化特征工程方法。
背景技术
随着信息技术的飞速发展,人类社会从工业时代步入信息时代,各行各业都在积极向信息化、智能化转型升级,与此同时也积累了大量的数据。大数据已成为重要的无形资产,是社会经济发展中的重要的生产要素。挖掘大数据背后隐藏的价值能够大幅提升各个行业/企业的智能化管理、决策与服务水平。机器学习作为数据挖掘的核心技术,在计算机视觉、自然语言处理、商业推广等大数据智能分析领域取得了巨大的成功,并给政务、金融、制造以及医疗等各个行业的发展注入了新的活力。
在各个行业大数据应用中,结构化数据是最为常见的数据类型之一。针对结构化数据的机器学习建模任务一直是学界和工业界关注的热点。在面向表数据的机器学习建模任务中,特征工程是非常重要的环节,对算法模型性能有着关键的影响。同时,也是机器学习建模流程最为耗时的步骤之一。
特征工程的主要目的是从行业数据大量原始特征中寻找高价值的、能够更好反映数据本质的新特征。特征工程不仅仅需要对单个特征处理,也需要考虑特征与特征之间的组合,从而解决线性模型对非线性关系缺乏有效表达的问题。具体而言,在确定机器学习建模任务后,数据分析人员需要从原始数据集中找到对目标变量有潜在影响的特征,然后将筛选后的特征通过特征变换以及特征组合等操作得到新的特征。然而,在实际应用场景中,特征工程大量依赖行业领域知识,而且费时费力,缺少有效的方法。一方面,需要在了解原有特征物理含义的基础上,利用相关领域专家知识和经验构建更好的新特征。另一方面,可选的特征变换以及特征组合操作搜索空间大,尤其是特征维度较高的时候。数据分析人员需要不断尝试,反复试错,最终找到优异的特征变换或者特征组合操作,整个过程需要大量的时间成本以及人力成本。
尽管深度神经网络通过表征学习能够自动捕获数据的高层特征,但是深度神经网络主要适用于图像、音频、文本等非结构化数据,不能很好地支持结构化数据。对于结构化数据,传统的机器学习算法如随机森林、梯度提升树等更为适用。与深度神经网络不同,传统机器学习算法模型需要手动构造特征。因此,特征工程更加重要。
为了降低特征工程对专家知识和经验的需求,提升特征工程的效率,近年来,面向结构化数据的自动化特征工程技术得到了学术界以及工业界的广泛关注。自动化特征工程在无需人工干预的情况下,能够利用机器替代专家自动化地搜索表现优异的新特征,具有较高的实际应用价值。目前,自动化特征工程主要包含扩展选择方法、基于变换图的方法以及基于神经架构搜索的方法。然而,已有自动化特征工程方法仍存在处理特征类型单一、计算效率低、算法性能有待进一步提升等问题。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种基于约束优化进化算法的自动化特征工程方法,能够对同时包含离散型特征和连续型特征的数据集进行特征变换函数序列搜索,提升机器学习模型预测性能。
技术方案:为实现上述发明目的,本发明提出了一种基于约束优化进化算法的自动化特征工程方法,包括以下步骤:
(1)针对原始数据集的每个特征,定义一种由特征变换函数组成的特征变换函数序列,并将自动化特征工程问题建模为特征变换函数序列搜索问题;
(2)对步骤(1)所述特征变换函数序列中的候选特征变换函数进行编码,候选特征变换函数编码空间由约束条件的边界确定,约束条件的边界取决于特征的类型和该类型对应的候选特征变换函数的种类及数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110555440.3/2.html,转载请声明来源钻瓜专利网。