[发明专利]特征生成方法和装置、电子设备和存储介质在审
申请号: | 202010841706.6 | 申请日: | 2020-08-20 |
公开(公告)号: | CN111967611A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 刘思明;朱坤广;李富武;陈迪 | 申请(专利权)人: | 贝壳技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F16/2455;G06F16/22;G06F16/28;G06F16/13;G06F16/182 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 毛丽琴 |
地址: | 300457 天津市滨海新区经济技术开发*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 生成 方法 装置 电子设备 存储 介质 | ||
本公开实施例公开了一种特征生成方法和装置、电子设备和存储介质,其中,方法包括:获取用户信息数据库中用户的基础信息和行为信息;采用文本到向量的编码方式,分别对获取的各项所述基础信息进行编码,得到至少一个基础离散特征;分别基于预先配置的聚合方式信息对相应的所述行为信息进行聚合处理,得到多个基础聚合特征;分别基于预先配置的计算方式信息对相应的所述基础聚合特征进行计算处理,得到至少一个组合特征;将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及预先设置的至少一类别标签进行对应存储,以用于训练机器学习模型。本公开实施例可以提高特征生成效率和机器学习模型的训练效果。
技术领域
本公开涉及计算机技术,尤其是一种特征生成方法和装置、电子设备和存储介质。
背景技术
机器学习是人工智能及模式识别领域的共同研究热点,其理论和方法已被广泛应用于解决工程应用和科学领域的复杂问题。机器学习不仅在基于知识的系统中得到应用,而且在自然语言理解(NLU)、非单调推理、机器视觉、模式识别等许多领域也得到了广泛应用。一个系统是否具有学习能力已成为是否具有“智能”的一个标志。机器学习的研究主要分为两类研究方向:第一类是传统机器学习的研究,该类研究主要是研究学习机制,注重探索模拟人的学习机制;第二类是大数据环境下机器学习的研究,该类研究主要是研究如何有效利用信息,注重从巨量数据中获取隐藏的、有效的、可理解的知识。
在目的的大数据时代,人们希望使用机器学习技术从海量数据中挖掘价值,这就需要先利用历史数据训练机器学习模型。训练机器学习模型的主要过程如下:由历史数据获取用于输入机器学习模型的输入特征,由机器学习模型输出相应的输出特征;基于机器学习算法,基于输入特征和输出特征训练机器学习模型。在机器学习模型训练完成后,便可以利用该机器学习模型对输入数据预测输出数据。
在实现本公开的过程中,本公开的发明人通过研究发现,现有技术中,需要通过用户从历史数据中手工筛选训练当前机器学习模型所需要的数据,并对其进行手工处理,来得到输入特征,这就至少存在以下问题:由于需要用户手工从历史数据中逐一进行数据筛选和处理,操作繁琐,处理效率较低,需要花费大量时间,并且,所需处理的数据量庞大极易出错,这就会影响后续机器学习模型的训练效果。
发明内容
本公开实施例提供一种特征生成方法和装置、电子设备和存储介质,以提高特征生成效率和机器学习模型的训练效果。
本公开实施例的一个方面,提供的一种特征生成方法,包括:
获取用户信息数据库中用户的基础信息和行为信息;其中,所述基础信息包括:用于表示用户至少一项属性的信息;所述行为信息包括:用于表示用户线上和/或线下各项行为的信息;
采用文本到向量的编码方式,分别对获取的各项所述基础信息进行编码,得到至少一个基础离散特征;分别基于预先配置的聚合方式信息对相应的所述行为信息进行聚合处理,得到多个基础聚合特征;
分别基于预先配置的计算方式信息对相应的所述基础聚合特征进行计算处理,得到至少一个组合特征;
将所述至少一个基础离散特征、所述多个基础聚合特征和所述至少一个组合特征、以及预先针对所述用户的基础信息和行为信息设置的至少一类别标签进行对应存储,以用于训练机器学习模型。
可选地,在基于本公开上述任一实施例的方法中,所述行为信息包括以下任意一项或多项:页面浏览信息,页面停留时长,搜索信息,推荐信息,分享关注信息,业务委托信息,业务带看信息,业务成交信息。
可选地,在基于本公开上述任一实施例的方法中,所述采用文本到向量的编码方式,分别对获取的各项所述基础信息进行编码,包括:
采用独热One-Hot编码方式,分别对获取的各项所述基础信息进行编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳技术有限公司,未经贝壳技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010841706.6/2.html,转载请声明来源钻瓜专利网。