[发明专利]更新业务预测模型的方法及装置有效
申请号: | 202010819237.8 | 申请日: | 2020-08-14 |
公开(公告)号: | CN111682972B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 王世军;朱宝成;李晨;吴明哲;詹姆士·张;褚崴;漆远 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;G06N20/00;H04L29/08 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 更新 业务 预测 模型 方法 装置 | ||
1.一种更新业务预测模型的方法,所述业务预测模型包括通过强化学习实现的智能体,所述方法包括:
获取业务请求,根据所述业务请求确定环境的状态特征;
将所述状态特征输入智能体,所述智能体根据第一策略参数下的策略函数,确定对应的业务响应作为当前动作;
向环境输出所述业务响应,基于环境反馈确定当前奖励;
根据所述状态特征,当前动作和当前奖励,以损失函数最小化为目标,确定更新后的第二策略参数,其中所述损失函数与第一目标项负相关,所述第一目标项包括,采用高斯混合模型GMM,将所述第二策略参数下的策略函数表示为K个高斯分布的组合的第一表达式;
用所述第二策略参数下的策略函数,更新所述智能体。
2.根据权利要求1所述的方法,其中,所述损失函数还与距离项正相关,所述距离项对应于所述第一策略参数和第二策略参数之间的距离。
3.根据权利要求2所述的方法,其中,所述距离项基于欧式距离,KL散度或J-S散度而确定。
4.根据权利要求2所述的方法,其中,所述距离项基于Wasserstein距离表达式而确定。
5.根据权利要求1所述的方法,其中,所述第一表达式包括所述K个高斯分布中各个高斯分布的分布变量和组合系数变量;
所述以损失函数最小化为目标,确定更新后的第二策略参数,包括:
在黎曼空间中,计算所述第一目标项对所述分布变量和组合系数变量的梯度;
根据所述梯度更新所述分布变量和组合系数变量;
根据更新后的组合系数变量,对具有更新后的分布变量的各个高斯分布进行组合,从而得到所述第二策略参数下的策略函数。
6.根据权利要求5所述的方法,其中,所述K个高斯分布经过参数重定义而具有0均值,所述分布变量为高斯分布的方差。
7.根据权利要求5所述的方法,其中,所述K个高斯分布包括任意的第i高斯分布,该第i高斯分布对应的所述组合系数变量,基于该第i高斯分布的权重系数与第K高斯分布的权重系数的比例而确定。
8.根据权利要求4所述的方法,其中,所述以损失函数最小化为目标,确定更新后的第二策略参数,包括:
在黎曼空间中,计算所述Wasserstein距离表达式的梯度。
9.根据权利要求1所述的方法,其中,所述业务请求来自于用户,并包括以下之一:页面访问请求,支付请求,内容推送请求;所述状态特征至少包括所述用户的用户特征。
10.根据权利要求1所述的方法,其中,所述业务请求为用户对第一页面的访问请求;所述业务响应为以特定布局方式展示所述第一页面;所述环境反馈为所述用户对以所述特定布局方式展示的所述第一页面的用户操作行为。
11.一种更新业务预测模型的装置,所述业务预测模型包括,通过强化学习实现的智能体,所述装置包括:
状态确定单元,配置为获取业务请求,根据所述业务请求确定环境的状态特征;
动作确定单元,配置为将所述状态特征输入智能体,所述智能体根据第一策略参数下的策略函数,确定对应的业务响应作为当前动作;
奖励确定单元,配置为向环境输出所述业务响应,基于环境反馈确定当前奖励;
参数确定单元,配置为根据所述状态特征,当前动作和当前奖励,以损失函数最小化为目标,确定更新后的第二策略参数,其中所述损失函数与第一目标项负相关,所述第一目标项包括,采用高斯混合模型GMM,将所述第二策略参数下的策略函数表示为K个高斯分布的组合的第一表达式;
更新单元,配置为用所述第二策略参数下的策略函数,更新所述智能体。
12.根据权利要求11所述的装置,其中,所述损失函数还与距离项正相关,所述距离项对应于所述第一策略参数和第二策略参数之间的距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010819237.8/1.html,转载请声明来源钻瓜专利网。