[发明专利]基于特征计算图的可视化机器学习特征提取系统及方法在审
申请号: | 202110356959.9 | 申请日: | 2021-04-01 |
公开(公告)号: | CN113010164A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 彭艳宏;王雄 | 申请(专利权)人: | 杭州初灵数据科技有限公司 |
主分类号: | G06F8/34 | 分类号: | G06F8/34;G06F8/38;G06F9/451;G06N20/00 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 陈炜 |
地址: | 311799 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 计算 可视化 机器 学习 提取 系统 方法 | ||
本发明提供了一种基于特征计算图的可视化机器学习特征提取系统及方法。首先,将结构化原始数据集各列、特征变换函数以及输出项抽象成节点控件绘制在图形界面上;然后,由用户根据自身需求拖动节点控件搭建特征工程处理流程;最后,数据处理模块读取用户搭建的特征计算图,利用深度优先搜索遍历各个节点提取特征,完成特征转换。本发明通过将机器学习特征提取阶段的流程图抽象成特征计算图,从而让用户可以通过拖动控件的方式自主搭建数据处理流程,降低了特征提取任务的难度,且方便修改调试,有助于降低数据处理人员的心智负担,还可以让非专业人员参与到相关项目中来。
技术领域
本发明属于机器学习的特征工程领域,具体涉及一种基于特征计算图的可视化机器学习特征提取系统及方法。
背景技术
特征工程是机器学习任务中的一项重要组成部分,通过这一过程,可以将原始数据转换成可以直接输入机器学习模型的特征数据,即所谓的特征提取。特征工程主要涉及到使用数据变换函数对数据进行转换、聚合等操作,从而生成新的特征。对数据进行变换后形成的新特征在高维空间中的分布具有更好的优化特性,因此相较于原始特征,使用这些变换后的特征有利于训练出准确度更高的模型。
数据变换是进行特征提取的关键步骤,这一过程将输入的一列或者多列特征按照一定的计算方法生成一列或者多列新的特征,因此数据变换操作也可以被称为特征变换算子。通常来讲,特征变换算子按照参数规则可以被分为两个大类。第一种是元参数类,也就是说初始时就需要设置的值,比如对数变换时的底数,二值化变换时的阈值等等。第二种是与具体数据集合相关的统计参数,比如归一化变换时的最值、均值,独热编码时的映射关系表等等。其中对于只有元参数类的算子来说,只需一次遍历即可得到变换数据,而对于拥有统计参数的算子来说,第一次遍历数据只能计算出统计参数,需要第二次遍历才能完成数据变换,一般将第一次遍历称为fit,第二次遍历称为transform。
在特征工程处理中,数据工程师编写代码或者调用外部库来实现特征变换算子,然后再利用这些算子编排代码使得原始数据经过层层处理以产生符合自己预期的新特征。但是上述过程一般需要精通代码编写的数据处理专业人员来进行,并且代码流程繁琐,降低了生产效率。为了解决这些困难,本方法提出一种基于特征计算图的可视化特征提取方案,通过在界面上拖动控件构造特征提取计算图,并在后端处理中对计算图进行深度优先搜索来提取特征。该方法让特征提取流程更为直观,易于操作。
发明内容
本方法的目的在于通过可视化的方式,引导用户搭建特征提取流程计算图,解决以往需要编写代码处理数据的问题。
本发明一种基于特征计算图的可视化机器学习特征提取系统,包括可视化前端界面和数据处理模块。可视化前端界面中包含了用于搭建特征计算图的三种节点控件,分别为Input节点、算子节点和Output节点。数据处理模块用于特征计算图对用户数据集进行处理。每个Input 节点对应用户数据集的一列元素。算子节点具有多种不同的算法类型。不同的算法类型的算子节点包含了对应的特征变换函数及其参数,用以对输入的数据进行变换。
作为优选,按算法类型进行分类,所述的算子节点包括数据缩放节点、离散化节点、向量化节点、函数变换节点和降维节点。所述的数据缩放节点根据预设的参数对输入的数据进行标准化或归一化运算。离散化节点根据预设的参数对输入的数据进行等距分桶、等频分桶或二值化处理;其中,等距分桶和等频分桶需要设置的参数为分桶数量,二值化需要设置的参数为阈值,将输入数据中大于或等于阈值的部分将被统一变换为1,小于阈值的部分将被统一变换为0。向量化节点根据预设的参数对输入的数据进行独热编码或词向量变换。其中,词向量变换对应有词向量库。函数变换节点根据预设的参数对输入的数据进行对数变换和指数变换,其中对数变换需要设置的参数为底数;指数变换需要设置的参数为指数。降维节点通过主成分分析法或tSNE对输入的数据进行降维;其中,主成分分析法需要设置的参数为主成分数;tSNE 需要设置的参数为目标维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州初灵数据科技有限公司,未经杭州初灵数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110356959.9/2.html,转载请声明来源钻瓜专利网。