[发明专利]用于机器学习特征工程的参数优化方法和装置在审

申请号：	202310384601.6	申请日：	2023-04-06
公开（公告）号：	CN116383659A	公开（公告）日：	2023-07-04
发明（设计）人：	郝伟;刘加瑞;陈勇	申请（专利权）人：	安徽华云安科技有限公司
主分类号：	G06F18/214	分类号：	G06F18/214;G06F18/213;G06F18/21;G06N3/08;G06N20/00
代理公司：	北京华专卓海知识产权代理事务所(普通合伙) 11664	代理人：	王一
地址：	231200 安徽省合肥市高新区华***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于机器学习特征工程参数优化方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种用于机器学习特征工程的参数优化方法和装置，所述方法包括：获取当前样本空间，对所述当前样本空间中的第一训练样本的维度特征进行重要性量化；根据量化结果对所述第一训练样本中的维度进行降序排序；在对神经网络模型进行训练的过程中，对于第i次训练，从所述第一训练样本中选取排序前i的维度特征形成与所述第一训练样本对应的第二训练样本，利用所述第二训练样本对所述神经网络模型进行训练，生成目标模型，其中，i为自然数，i小于等于n，n为第一训练样本的特征维度；对所述目标模型进行验证，选取满足预设条件的模型作为最终模型。以此方式，能够对特征进行自动化评估，进而提高工作效率和生成的模型的准确度。

技术领域

本公开的实施例一般涉及机器学习技术领域，并且更具体地，涉及一种用于机器学习特征工程的参数优化方法和装置。

背景技术

特征工程是从原始数据中筛选出数据特征用以提升模型的训练效果。一般而言，机器学习过程的第一步就是先对样本的特征集进行定义，然后再根据所定义的特征选择合适的样本集进行训练。这个过程往往会经历比较耗时的调参数过程，即研究人员需要对数据可能的特征进行不同可能的组合选择和重新组合，以得到一个较好的满足需求的训练模型。从数学层面，很容易分析出n个特性可能的组合会有n！种。同时，在此分析过程当中，由于需要人工去调整和组合，对于n！种可能的组合，往往需要利用人类经验去筛选，以减少测试的空间。然而，找到合适的模型通常比较困难：不仅需要较高的经验，同时也会消耗相当多的时间。

发明内容

根据本公开的实施例，提供了一种用于机器学习特征工程的参数优化方案，用于对特征进行自动化评估，进而提高工作效率和生成的模型的准确度。

在本公开的第一方面，提供了一种用于机器学习特征工程的参数优化方法，包括：

获取当前样本空间，对所述当前样本空间中的第一训练样本的维度特征进行重要性量化；

根据量化结果对所述第一训练样本中的维度进行降序排序；

在对神经网络模型进行训练的过程中，对于第i次训练，从所述第一训练样本中选取排序前i的维度特征形成与所述第一训练样本对应的第二训练样本，利用所述第二训练样本对所述神经网络模型进行训练，生成目标模型，其中，i为自然数，i小于等于n，n为第一训练样本的特征维度；

对所述目标模型进行验证，选取满足预设条件的模型作为最终模型。

在一些实施例中，所述对所述当前样本空间中的第一训练样本的维度特征进行重要性量化，包括：

通过样本偏差值对所述第一训练样本的维度特征进行重要性量化，其中第i维特征的偏差指数w_i通过以下方式计算：

其中，w_i为偏差指数，m为所述当前样本空间中的第一训练样本的数量。

在一些实施例中，所述根据量化结果对所述第一训练样本中的维度进行降序排序，包括：

按照样本偏差值由高到低的顺序对所述第一训练样本中的维度进行降序排序。