[发明专利]一种基于约束优化进化算法的自动化特征工程方法在审
申请号: | 202110555440.3 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113297293A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 朱光辉;黄宜华;郭旭 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06N3/00;G06N20/00 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 约束 优化 进化 算法 自动化 特征 工程 方法 | ||
1.一种基于约束优化进化算法的自动化特征工程方法,包括以下步骤:
(1)针对原始数据集的每个特征,定义一种由特征变换函数组成的特征变换函数序列,并将自动化特征工程问题建模为特征变换函数序列搜索问题;
(2)对步骤(1)所述特征变换函数序列中的候选特征变换函数进行编码,候选特征变换函数编码空间由约束条件的边界确定,约束条件的边界取决于特征的类型和该类型对应的候选特征变换函数的种类及数量;
(3)初始化一个特征变换函数序列种群,种群中每个个体由多个特征变换函数序列组成,所述特征变换函数序列的数量等于特征的总数;在种群初始化阶段,根据特征类型对应的候选特征变换函数编码空间随机选择l个编码,组成一个长度为l的特征变换函数序列,所有特征的特征变换函数序列组成一个个体,种群中包含N个个体;此后进入进化阶段,进化阶段重复多个进化步,每个进化步包含选择、交叉和变异操作;
(4)计算种群中每个个体的适应度:将个体中的特征变换函数序列解码后,对原始数据集进行特征变换,将变换后的特征与原始特征拼接得到新的数据集,在新的数据集上训练机器学习模型,并将训练后的机器学习模型的预测性能作为个体的适应度;
(5)执行一个进化步:根据个体的适应度,独立地从种群中选择N次个体,每次选择一个个体,所述个体被选中的概率与其适应度大小成正比,适应度较高的个体可能被多次选中,将选择得到的N个个体作为母体;对母体进行交叉、变异操作,交叉和变异意味着改变特征变换函数序列中的编码,改变编码也代表着改变特征变换的方式;将母体交叉、变异后产生的孩子个体加入新一代种群中;
(6)此后,计算新一代种群中每个个体的适应度,执行下一个进化步,如此往复直至进化步数达到指定值;选择种群进化过程中适应度最高的个体对所述原始数据集进行特征变换,从而实现自动化特征工程。
2.根据权利要求1所述一种基于约束优化进化算法的自动化特征工程方法,其特征在于:所述步骤(1)中,所述特征包括离散型特征和连续型特征,不同类型的特征所适合的特征变换函数不同,根据原始数据集中每个特征的类型,自动地对不同类型的特征使用相应的特征变换函数;特征变换函数序列支持特征变换函数之间的嵌套,从而能够对特征进行高阶变换。
3.根据权利要求1所述一种基于约束优化进化算法的自动化特征工程方法,其特征在于:所述步骤(2)中,约束条件根据特征类型将候选特征变换函数编码空间分为两部分,分别为离散型候选特征变换函数编码空间和连续型候选特征变换函数编码空间,约束条件的边界通过一阶特征变换函数编码个数加上二阶特征变换函数编码个数得到,一阶特征变换函数编码个数等于一阶特征变换函数个数,二阶特征变换函数编码个数等于二阶特征变换函数个数乘以参与二阶特征变换函数的特征数量。
4.根据权利要求1所述一种基于约束优化进化算法的自动化特征工程方法,其特征在于:所述步骤(3)中,在初始化种群时,一个个体包含有多条染色体,每条染色体表示原始数据集中一个特征的特征变换函数序列,所述特征变换函数序列中的元素根据特征类型从相应的候选特征变换函数编码空间中随机选取。
5.根据权利要求1所述一种基于约束优化进化算法的自动化特征工程方法,其特征在于:所述步骤(4)中,在计算个体的适应度时,将个体中的特征变换函数序列进行解码,对原始数据集中多个特征批量进行特征变换;然后,将变换后的新特征和原始特征进行拼接操作,引入新特征的同时保留原始特征。
6.根据权利要求1所述一种基于约束优化进化算法的自动化特征工程方法,其特征在于:所述步骤(5)中,选择、交叉和变异操作保留个体中优秀的基因表示,使种群总体朝着高适应度方向进化的同时,也充分考虑到种群的多样性,避免陷入局部最优解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110555440.3/1.html,转载请声明来源钻瓜专利网。