[发明专利]基于异构特征库的业务模型训练方法及装置在审
申请号: | 202010033281.6 | 申请日: | 2020-01-13 |
公开(公告)号: | CN111242318A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 马庚;周小又;姜谷雨 | 申请(专利权)人: | 拉扎斯网络科技(上海)有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 梁倩 |
地址: | 200333 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 业务 模型 训练 方法 装置 | ||
本发明公开了一种基于异构特征库的业务模型训练方法及装置,其中,基于异构特征库的业务模型训练方法包括:对不同业务场景的多个异构特征库进行融合处理,得到融合特征库;针对任一业务场景,采集该业务场景的用户行为日志数据,读取该业务场景的样本特征配置文件;根据样本特征配置文件,将用户行为日志数据与融合特征库中的特征进行关联,得到训练样本;根据训练样本,训练得到业务场景对应的业务模型。该方案实现了针对不同业务场景的训练流程的统一,针对任一业务场景,将该业务场景的用户行为日志数据与融合特征库中的特征进行关联,能够快速、便捷地生成该业务场景所需的训练样本,有效地提高了训练样本的获取效率和业务模型的训练效率。
技术领域
本发明涉及计算机技术领域,具体涉及一种基于异构特征库的业务模型训练方法及装置。
背景技术
机器学习是当前人工智能领域的研究热点,其理论和方法被广泛用于解决各个领域的复杂问题。通过特定的机器学习算法以及训练样本可以训练各种业务模型。为了使得训练得到的业务模型具有较高的准确率和较好的预测效果,一般会使用海量的训练样本参与模型训练,例如几十万或几百万的训练样本。然而,在不同业务场景下的特征库大多数据、结构是不同的,为异构特征库,其通用性较差;而且在业务模型训练过程中,不同业务场景下由于侧重点或需求不同,因此所需的训练样本和特征各不相同。因此,针对不同业务场景,都需要耗费大量时间进行样本数据采集和特征处理,导致现有的模型训练方式存在着效率较低的问题。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的基于异构特征库的业务模型训练方法及装置。
根据本发明实施例的一个方面,提供了一种基于异构特征库的业务模型训练方法,该方法包括:
对不同业务场景的多个异构特征库进行融合处理,得到融合特征库;
针对任一业务场景,采集该业务场景的用户行为日志数据,读取该业务场景的样本特征配置文件;
根据样本特征配置文件,将用户行为日志数据与融合特征库中的特征进行关联,得到训练样本;
根据训练样本,训练得到业务场景对应的业务模型。
进一步地,融合特征库包含用户特征表和店铺特征表。
进一步地,根据样本特征配置文件,将用户行为日志数据与融合特征库中的特征进行关联,得到训练样本进一步包括:
根据样本特征配置文件,确定待关联用户特征和待关联店铺特征;
依据用户行为日志数据中的用户标识,从融合特征库中的用户特征表中提取符合用户标识的待关联用户特征;
依据用户行为日志数据中的店铺标识,从融合特征库中的店铺特征表中提取符合店铺标识的待关联店铺特征;
将用户行为日志数据与提取到的符合用户标识的待关联用户特征以及符合店铺标识的待关联店铺特征进行关联,得到训练样本。
进一步地,对不同业务场景的多个异构特征库进行融合处理,得到融合特征库进一步包括:
从多个异构特征库中提取具有相同特征名称的多个特征;
对多个特征的特征属性进行分析,得到特征分析结果;
根据特征分析结果,对多个特征进行融合处理。
进一步地,对多个特征的特征属性进行分析,得到特征分析结果进一步包括:
对多个特征的特征名称意义、特征值类型以及特征值取值范围进行分析,得到特征分析结果。
进一步地,根据特征分析结果,对多个特征进行融合处理进一步包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于拉扎斯网络科技(上海)有限公司,未经拉扎斯网络科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010033281.6/2.html,转载请声明来源钻瓜专利网。