[发明专利]更新业务预测模型的方法及装置有效
申请号: | 202010819237.8 | 申请日: | 2020-08-14 |
公开(公告)号: | CN111682972B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 王世军;朱宝成;李晨;吴明哲;詹姆士·张;褚崴;漆远 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;G06N20/00;H04L29/08 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 更新 业务 预测 模型 方法 装置 | ||
本说明书实施例提供一种更新业务预测模型的方法和装置,其中业务预测模型包括通过强化学习实现的智能体。方法包括:获取业务请求,根据业务请求确定环境的状态特征;将状态特征输入智能体,智能体根据第一策略参数下的策略函数,确定对应的业务响应作为当前动作。然后,向环境输出业务响应,基于环境反馈确定当前奖励。接着,根据状态特征,当前动作和当前奖励,以损失函数最小化为目标,确定更新后的第二策略参数,其中损失函数与第一目标项负相关,所述第一目标项包括,采用高斯混合模型GMM,将第二策略参数下的策略函数表示为K个高斯分布的组合的第一表达式;于是,可以用第二策略参数下的策略函数,更新智能体。
技术领域
本说明书一个或多个实施例涉及机器学习领域,尤其涉及更新业务预测模型的方法和装置。
背景技术
机器学习的迅猛发展使得各种机器学习的模型在各种各样的业务场景得到应用。相较于机器学习经典的有监督学习、无监督学习,近来发展的强化学习最大的特点和优势,是通过跟环境的不断交互、互相影响来进行策略调整,根据获得的奖励或惩罚不断的自我学习,更加适应环境。因此,强化学习模型尤其适合于涉及交互的业务场景,例如,与用户进行交互问答的智能客服场景,向用户推送内容的推荐场景,等等。
然而,随着业务场景越来越复杂,强化学习模型中要学习的策略参数也越来越多,越来越复杂。这使得策略的更新和学习难度进一步增大。
因此,希望能有改进的方案,可以针对强化学习实现的业务预测模型进行高效更新。
发明内容
本说明书一个或多个实施例描述了一种更新业务预测模型的方法和装置,可以在智能体策略更新过程中,减小需要学习的参数,提高学习效率。
根据第一方面,提供了一种更新业务预测模型的方法,所述业务预测模型包括通过强化学习实现的智能体,所述方法包括:
获取业务请求,根据所述业务请求确定环境的状态特征;
将所述状态特征输入智能体,所述智能体根据第一策略参数下的策略函数,确定对应的业务响应作为当前动作;
向环境输出所述业务响应,基于环境反馈确定当前奖励;
根据所述状态特征,当前动作和当前奖励,以损失函数最小化为目标,确定更新后的第二策略参数,其中所述损失函数与第一目标项负相关,所述第一目标项包括,采用高斯混合模型GMM,将所述第二策略参数下的策略函数表示为K个高斯分布的组合的第一表达式;
用所述第二策略参数下的策略函数,更新所述智能体。
根据一种实施方式,所述损失函数还与距离项正相关,所述距离项对应于所述第一策略参数和第二策略参数之间的距离。
进一步的,在一个实施例中,所述距离项基于欧式距离,KL散度或J-S散度而确定。
在另一实施例中,所述距离项基于Wasserstein距离表达式而确定。
根据一种实施方式,所述第一表达式包括,所述K个高斯分布中各个高斯分布的分布变量和组合系数变量;相应的,以损失函数最小化为目标,确定更新后的第二策略参数,具体包括:在黎曼空间中,计算所述第一目标项对所述分布变量和组合系数变量的梯度;根据所述梯度更新所述分布变量和组合系数;根据更新后的组合系数,对具有更新后的分布变量的各个高斯分布进行组合,从而得到所述第二策略参数下的策略函数。
在一个实施例中,上述K个高斯分布经过参数重定义而具有0均值,所述分布变量为高斯分布的方差。
根据一个实施例,K个高斯分布包括任意的第i高斯分布,该第i高斯分布对应的所述组合系数变量,基于该第i高斯分布的权重系数与第K高斯分布的权重系数的比例而确定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010819237.8/2.html,转载请声明来源钻瓜专利网。