[发明专利]利用深度强化学习进行推荐营销的方法及装置在审
申请号: | 201810879896.3 | 申请日: | 2018-08-03 |
公开(公告)号: | CN109003143A | 公开(公告)日: | 2018-12-14 |
发明(设计)人: | 何建杉 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁;周良玉 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 营销行为 营销 强化学习 营销策略 状态信息确定 方法和装置 场景信息 分数更新 营销渠道 营销业务 用户信息 奖励 场景 学习 | ||
本说明书实施例提供一种利用深度强化学习进行推荐营销的方法和装置,方法包括,全面获取执行环境的状态信息,其至少包括当前用户的用户信息,还可以包括用户所处场景的场景信息。然后根据营销策略,针对上述状态信息确定相应的营销行为,营销行为包括营销渠道、营销内容和营销时段的组合。接着,获取执行环境针对营销行为的当前奖励分数,并根据当前奖励分数更新营销策略,从而全面学习营销业务过程。
技术领域
本说明书一个或多个实施例涉及机器学习领域,尤其涉及利用深度强化学习进行推荐营销的方法及装置。
背景技术
机器学习的迅猛发展使得各种机器学习的模型已经应用在各种各样的业务场景中,例如用于评估用户的信用风险,用于向用户推荐合适的内容,或向用户推送合适的营销信息,用于预测广告的投放效果等。
实际上,一项业务场景的完整业务流程经常包含多个阶段或多个环节,其中涉及诸多因素。例如,在推荐营销的业务场景中,业务至少可以包括以下环节:营销信息的选择和推送,推送之后用户的反馈和追踪。在这些环节中,又涉及诸多因素和参数,例如营销的渠道,推送方式,触达率,转化率等等。因此,在试图将机器学习应用到业务场景中时,面对复杂的业务场景中的诸多环节和诸多因素,如何设计和选择适用的模型,引入何种因素衡量业务的执行状况,都是需要考虑的问题。
因此,希望能有改进的方案,更加高效地用机器学习提高业务执行效果。
发明内容
本说明书一个或多个实施例描述了一种利用深度强化学习进行推荐营销的方法和装置,可以综合全面地对推荐营销业务中的多个环节多个因素进行学习,以综合全面地促进业务效果。
根据第一方面,提供了一种利用深度强化学习进行推荐营销的方法,所述方法包括:
获取执行环境的状态信息,所述状态信息至少包括当前用户的用户信息;
根据营销策略,针对所述状态信息确定相应的营销行为,所述营销行为包括营销渠道、营销内容和营销时段的组合;
获取执行环境针对所述营销行为的当前奖励分数;
至少根据所述当前奖励分数更新所述营销策略。
根据一种实施方式,所述用户信息包括,用户基本属性信息,以及用户历史行为信息。
进一步地,在一个实施例中,用户历史行为信息包括以下中的至少一项:历史操作序列、最近浏览页面列表、最近接受的营销信息列表、消费记录、交易记录、贷款记录、出行记录、保险记录。
在一种可能的设计中,用户信息包括用户画像信息,所述用户画像信息基于用户基本属性信息和/或用户历史行为信息预先确定。
在一个实施例中,所述状态信息还包括,所述当前用户所处场景的场景信息。
进一步地,在一个例子中,场景信息包括,位置服务场景信息,支付场景信息,钱包操作事件信息。
在一种可能的设计中,营销内容包括营销消息和利益包,所述利益包包括以下中的一种或多种:红包、优惠券、权益。
根据一种实施方式,营销渠道包括以下中的一种或多种:消息推送,卡片展示,角标提醒,红点提醒。
在一个实施例中,方法还包括,至少基于所述当前奖励分数确定回报价值,所述回报价值包括所述当前奖励分数和至少一项未来奖励分数的加权求和;并且更新营销策略的步骤包括,确定后续营销策略,使得所述回报价值最大化。
根据第二方面,提供一种利用深度强化学习进行推荐营销的装置,所述装置包括:
状态获取单元,配置为获取执行环境的状态信息,所述状态信息至少包括当前用户的用户信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810879896.3/2.html,转载请声明来源钻瓜专利网。