[发明专利]特征生成方法和装置、电子设备和存储介质在审

专利信息
申请号: 202010841706.6 申请日: 2020-08-20
公开(公告)号: CN111967611A 公开(公告)日: 2020-11-20
发明(设计)人: 刘思明;朱坤广;李富武;陈迪 申请(专利权)人: 贝壳技术有限公司
主分类号: G06N20/00 分类号: G06N20/00;G06F16/2455;G06F16/22;G06F16/28;G06F16/13;G06F16/182
代理公司: 北京思源智汇知识产权代理有限公司 11657 代理人: 毛丽琴
地址: 300457 天津市滨海新区经济技术开发*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 特征 生成 方法 装置 电子设备 存储 介质
【说明书】:

本公开实施例公开了一种特征生成方法和装置、电子设备和存储介质,其中,方法包括:获取用户信息数据库中用户的基础信息和行为信息;采用文本到向量的编码方式,分别对获取的各项所述基础信息进行编码,得到至少一个基础离散特征;分别基于预先配置的聚合方式信息对相应的所述行为信息进行聚合处理,得到多个基础聚合特征;分别基于预先配置的计算方式信息对相应的所述基础聚合特征进行计算处理,得到至少一个组合特征;将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及预先设置的至少一类别标签进行对应存储,以用于训练机器学习模型。本公开实施例可以提高特征生成效率和机器学习模型的训练效果。

技术领域

本公开涉及计算机技术,尤其是一种特征生成方法和装置、电子设备和存储介质。

背景技术

机器学习是人工智能及模式识别领域的共同研究热点,其理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题。机器学习不仅在基于知识的系统中得到应用,而且在自然语言理解(NLU)、非单调推理、机器视觉、模式识别等许多领域也得到了广泛应用。一个系统是否具有学习能力已成为是否具有“智能”的一个标志。机器学习的研究主要分为两类研究方向:第一类是传统机器学习的研究,该类研究主要是研究学习机制,注重探索模拟人的学习机制;第二类是大数据环境下机器学习的研究,该类研究主要是研究如何有效利用信息,注重从巨量数据中获取隐藏的、有效的、可理解的知识。

在目的的大数据时代,人们希望使用机器学习技术从海量数据中挖掘价值,这就需要先利用历史数据训练机器学习模型。训练机器学习模型的主要过程如下:由历史数据获取用于输入机器学习模型的输入特征,由机器学习模型输出相应的输出特征;基于机器学习算法,基于输入特征和输出特征训练机器学习模型。在机器学习模型训练完成后,便可以利用该机器学习模型对输入数据预测输出数据。

在实现本公开的过程中,本公开的发明人通过研究发现,现有技术中,需要通过用户从历史数据中手工筛选训练当前机器学习模型所需要的数据,并对其进行手工处理,来得到输入特征,这就至少存在以下问题:由于需要用户手工从历史数据中逐一进行数据筛选和处理,操作繁琐,处理效率较低,需要花费大量时间,并且,所需处理的数据量庞大极易出错,这就会影响后续机器学习模型的训练效果。

发明内容

本公开实施例提供一种特征生成方法和装置、电子设备和存储介质,以提高特征生成效率和机器学习模型的训练效果。

本公开实施例的一个方面,提供的一种特征生成方法,包括:

获取用户信息数据库中用户的基础信息和行为信息;其中,所述基础信息包括:用于表示用户至少一项属性的信息;所述行为信息包括:用于表示用户线上和/或线下各项行为的信息;

采用文本到向量的编码方式,分别对获取的各项所述基础信息进行编码,得到至少一个基础离散特征;分别基于预先配置的聚合方式信息对相应的所述行为信息进行聚合处理,得到多个基础聚合特征;

分别基于预先配置的计算方式信息对相应的所述基础聚合特征进行计算处理,得到至少一个组合特征;

将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及预先针对所述用户的基础信息和行为信息设置的至少一类别标签进行对应存储,以用于训练机器学习模型。

可选地,在基于本公开上述任一实施例的方法中,所述行为信息包括以下任意一项或多项:页面浏览信息,页面停留时长,搜索信息,推荐信息,分享关注信息,业务委托信息,业务带看信息,业务成交信息。

可选地,在基于本公开上述任一实施例的方法中,所述采用文本到向量的编码方式,分别对获取的各项所述基础信息进行编码,包括:

采用独热One-Hot编码方式,分别对获取的各项所述基础信息进行编码。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳技术有限公司,未经贝壳技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010841706.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top