[发明专利]一种特征构造方法、装置、机器可读介质及设备在审
申请号: | 202010831984.3 | 申请日: | 2020-08-18 |
公开(公告)号: | CN111985553A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 周曦;姚志强;陈琳;卢智聪;赵礼悦;翁谦;张博宣;张旭;蒋博劼;曹文飞 | 申请(专利权)人: | 北京云从科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 代玲 |
地址: | 102300 北京市门头沟区石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 构造 方法 装置 机器 可读 介质 设备 | ||
本发明提出一种特征构造方法,包括:获取待处理对象的原始特征;对所述原始特征进行特征处理,得到特征处理结果;其中,所述特征处理包括特征扩展或/和编码转换,所述特征处理结果包括扩展特征或/和编码特征;基于所述原始特征、所述特征处理结果得到目标特征集。本发明通过对原始特征进行特征扩展/编码转换,得到编码特征或扩展特征‑即元信息,通过充分利用这些元信息后,可以忽略具体的数据含义,可实现自动化的特征加工前提下,不牺牲特征加工表达能力,且在更高的抽象层次上定义复杂特征,达到更好的效果。
技术领域
本发明涉及机器学习技术领域,具体涉及一种特征构造方法、装置、机器可读介质及设备。
背景技术
大数据表格型数据是机器学习数据挖掘任务的主要输入形式,例如互联网公司、银行、政府数据库、数据仓库中的个人基本信息、人口统计学信息、行为日志、交易流水等等。数据挖掘模型通常是以这些信息为输入,完成分类、回归或排序任务,最终实现推荐、营销、风控等业务目的。
大数据表格型数据除了数据规模庞大以外,往往还具有内容丰富、形式复杂的特点。由于应用广泛、各个数据源背后的实际业务不同,不同数据源的大数据表格型数据内容和含义迥异:在人口统计学信息的数据表中,一行记录代表了一个用户的信息;而在行为日志信息类的数据表中,一行记录则可以是代表一次点击/购买行为,也可能代表用户在一天/一个月中点击/购买行为的行为汇总。即使在同一个数据源的同一张数据表中,也往往包含了数值数据、离散类别数据、时间戳数据等多种数据类型的数据。
机器学习数据挖掘模型往往是通常是服务于某种特定粒度下的分类、回归或排序任务。例如,对于信贷风控模型,需要对某一用户、或对某一次贷款申请,判断违约概率;对于广告推荐模型,需要对某一用户、在某一天生成一份推荐列表。但建模所需用到的原始输入数据未必都是这一粒度的:信贷风控模型可以利用该用户的历史行为记录日志、交易流水日志数据表,一位用户可能拥有上百条这样的细粒度记录,而最终的模型则需要对每一位用户只产生一条概率输出值。因此,这些细粒度的原始日志数据,需要经过聚合统计等过程,来为目标粒度的每一条记录,生成一条特征(称为feature或profile),作为机器学习算法模型的输入。
除此以外,在原始数据中,往往存在非数值的数据列:类别属性(attribute)列和ID列。例如,用户基本信息数据表中,可能有性别列,取值可以是“男”或“女”,这就是类别属性列;购买记录数据表中,可能有商品的SKU列,每种取值是一串文本或一个大整数,唯一地代表一种商品。这种数据列往往无法直接被机器学习算法模型所利用的,需要经过编码转换的过程,来加工为可以作为算法模型输入的数值型数据。
聚合统计和编码转换的过程,通常被称为特征加工/特征生成/特征工程,是机器学习数据挖掘模型建模过程中最关键、工作量最大的环节。而由于数据源之间的业务含义不同、差异太大,这样的过程很难被自动化,很难形成一个标准化、自动化的流程,来统一地对各个数据源进行机器学习数据挖掘模型的建模。在各种数据挖掘建模比赛或项目中,特征加工往往依赖于建模人员人工进行,因此工作量大、步骤繁琐,效果非常依赖于建模人员的个人经验和能力。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种特征构造方法、装置、机器可读介质及设备,用于解决现有技术存在的问题。
为实现上述目的及其他相关目的,本发明提供一种特征构造方法,包括:
获取待处理对象的原始特征;
对所述原始特征进行特征处理,得到特征处理结果;其中,所述特征处理包括特征扩展或/和编码转换,所述特征处理结果包括扩展特征或/和编码特征;
基于所述原始特征、所述特征处理结果得到目标特征集。
可选地,对所述原始特征进行特征处理,得到特征处理结果,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云从科技有限公司,未经北京云从科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010831984.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种富硒荞麦面及其制备方法
- 下一篇:物流数据处理方法、装置、设备、存储介质