[发明专利]一种特征构造方法、装置、机器可读介质及设备在审

专利信息
申请号: 202010831984.3 申请日: 2020-08-18
公开(公告)号: CN111985553A 公开(公告)日: 2020-11-24
发明(设计)人: 周曦;姚志强;陈琳;卢智聪;赵礼悦;翁谦;张博宣;张旭;蒋博劼;曹文飞 申请(专利权)人: 北京云从科技有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06N20/00
代理公司: 上海光华专利事务所(普通合伙) 31219 代理人: 代玲
地址: 102300 北京市门头沟区石*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 特征 构造 方法 装置 机器 可读 介质 设备
【说明书】:

发明提出一种特征构造方法,包括:获取待处理对象的原始特征;对所述原始特征进行特征处理,得到特征处理结果;其中,所述特征处理包括特征扩展或/和编码转换,所述特征处理结果包括扩展特征或/和编码特征;基于所述原始特征、所述特征处理结果得到目标特征集。本发明通过对原始特征进行特征扩展/编码转换,得到编码特征或扩展特征‑即元信息,通过充分利用这些元信息后,可以忽略具体的数据含义,可实现自动化的特征加工前提下,不牺牲特征加工表达能力,且在更高的抽象层次上定义复杂特征,达到更好的效果。

技术领域

本发明涉及机器学习技术领域,具体涉及一种特征构造方法、装置、机器可读介质及设备。

背景技术

大数据表格型数据是机器学习数据挖掘任务的主要输入形式,例如互联网公司、银行、政府数据库、数据仓库中的个人基本信息、人口统计学信息、行为日志、交易流水等等。数据挖掘模型通常是以这些信息为输入,完成分类、回归或排序任务,最终实现推荐、营销、风控等业务目的。

大数据表格型数据除了数据规模庞大以外,往往还具有内容丰富、形式复杂的特点。由于应用广泛、各个数据源背后的实际业务不同,不同数据源的大数据表格型数据内容和含义迥异:在人口统计学信息的数据表中,一行记录代表了一个用户的信息;而在行为日志信息类的数据表中,一行记录则可以是代表一次点击/购买行为,也可能代表用户在一天/一个月中点击/购买行为的行为汇总。即使在同一个数据源的同一张数据表中,也往往包含了数值数据、离散类别数据、时间戳数据等多种数据类型的数据。

机器学习数据挖掘模型往往是通常是服务于某种特定粒度下的分类、回归或排序任务。例如,对于信贷风控模型,需要对某一用户、或对某一次贷款申请,判断违约概率;对于广告推荐模型,需要对某一用户、在某一天生成一份推荐列表。但建模所需用到的原始输入数据未必都是这一粒度的:信贷风控模型可以利用该用户的历史行为记录日志、交易流水日志数据表,一位用户可能拥有上百条这样的细粒度记录,而最终的模型则需要对每一位用户只产生一条概率输出值。因此,这些细粒度的原始日志数据,需要经过聚合统计等过程,来为目标粒度的每一条记录,生成一条特征(称为feature或profile),作为机器学习算法模型的输入。

除此以外,在原始数据中,往往存在非数值的数据列:类别属性(attribute)列和ID列。例如,用户基本信息数据表中,可能有性别列,取值可以是“男”或“女”,这就是类别属性列;购买记录数据表中,可能有商品的SKU列,每种取值是一串文本或一个大整数,唯一地代表一种商品。这种数据列往往无法直接被机器学习算法模型所利用的,需要经过编码转换的过程,来加工为可以作为算法模型输入的数值型数据。

聚合统计和编码转换的过程,通常被称为特征加工/特征生成/特征工程,是机器学习数据挖掘模型建模过程中最关键、工作量最大的环节。而由于数据源之间的业务含义不同、差异太大,这样的过程很难被自动化,很难形成一个标准化、自动化的流程,来统一地对各个数据源进行机器学习数据挖掘模型的建模。在各种数据挖掘建模比赛或项目中,特征加工往往依赖于建模人员人工进行,因此工作量大、步骤繁琐,效果非常依赖于建模人员的个人经验和能力。

发明内容

鉴于以上所述现有技术的缺点,本发明的目的在于提供一种特征构造方法、装置、机器可读介质及设备,用于解决现有技术存在的问题。

为实现上述目的及其他相关目的,本发明提供一种特征构造方法,包括:

获取待处理对象的原始特征;

对所述原始特征进行特征处理,得到特征处理结果;其中,所述特征处理包括特征扩展或/和编码转换,所述特征处理结果包括扩展特征或/和编码特征;

基于所述原始特征、所述特征处理结果得到目标特征集。

可选地,对所述原始特征进行特征处理,得到特征处理结果,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云从科技有限公司,未经北京云从科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010831984.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top