[发明专利]展示信息组合确定方法、装置、存储介质及电子设备在审
申请号: | 201811647015.1 | 申请日: | 2018-12-29 |
公开(公告)号: | CN111401594A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 李亦锬;余林韵;陈嘉闽;黄训蓬;李磊 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/00;G06N20/00 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 魏嘉熹;南毅宁 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 展示 信息 组合 确定 方法 装置 存储 介质 电子设备 | ||
1.一种展示信息组合确定方法,其特征在于,所述方法包括:
获取数据库中的N个候选展示信息,所述N个候选展示信息为数据库中所有展示信息的全部或部分,其中,N为大于1的正整数;
将所述候选展示信息输入至与所述候选展示信息对应的目标决策模型,获得目标展示信息组合,所述目标展示信息组合包括M个所述候选展示信息,所述目标决策模型是利用强化学习网络模型构建的,且所述目标决策模型用于根据输入的展示信息确定出能够获得最大回报值的展示信息组合,其中,1≤MN。
2.根据权利要求1所述的方法,其特征在于,所述与候选展示信息对应的目标决策模型通过以下方式获得:
获取历史展示信息组合以及所述历史展示信息组合对应的实际回报值,其中,所述历史展示信息组合包括M个所述候选展示信息;
根据所述N个候选展示信息、所述历史展示信息组合以及所述历史展示信息组合对应的实际回报值,对强化学习网络模型进行训练,以获得所述目标决策模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述N个候选展示信息、所述历史展示信息组合以及所述历史展示信息组合对应的实际回报值,对强化学习网络模型进行训练,以获得所述目标决策模型,包括:
初始化所述强化学习网络模型,并根据所述N个候选展示信息和所述强化学习网络模型生成第一展示信息组合,所述第一展示信息组合包括M个所述候选展示信息;
确定与所述第一展示信息组合相同的历史展示信息组合,并将该历史展示信息组合对应的实际回报值确定为所述第一展示信息组合对应的实际回报值;
将所述第一展示信息组合对应的实际回报值输入至所述强化学习网络模型中,以调整所述第一展示信息组合中各候选展示信息在所述强化学习网络模型中的权重参数;
重复执行所述根据所述N个候选展示信息和所述强化学习网络模型生成第一展示信息组合,以及所述确定与所述第一展示信息组合相同的历史展示信息组合,并将该历史展示信息组合对应的实际回报值确定为所述第一展示信息组合对应的实际回报值,以及所述将所述第一展示信息组合对应的实际回报值输入至所述强化学习网络模型中,以调整所述第一展示信息组合中候选展示信息在所述强化学习网络模型中的权重参数的步骤,直至所述重复执行的次数达到预设次数;
将当前的所述强化学习网络模型确定为所述目标决策模型。
4.根据权利要求1所述的方法,其特征在于,所述获取数据库中的N个候选展示信息,包括:
获取所述数据库中的第一展示信息,所述第一展示信息为已被单独展示过的展示信息;
获取所述第一展示信息被单独展示时对应的实际回报值;
至少将单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息确定为所述候选展示信息。
5.根据权利要求4所述的方法,其特征在于,所述至少将单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息确定为所述候选展示信息,包括:
将单独展示时对应的实际回报值大于或者等于预设回报值阈值的第一展示信息确定为所述候选展示信息,以及,将所述数据库中除所述第一展示信息之外的其他展示信息确定为所述候选展示信息。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
记录所述目标展示信息组合对应的实际回报值;
将所述实际回报值输入至所述目标决策模型,以更新所述目标决策模型中与所述目标展示信息组合中各候选展示信息对应的权重参数。
7.根据权利要求3或6所述的方法,其特征在于,候选展示信息在目标决策模型中的权重参数与目标决策模型生成展示信息组合时选择该候选展示信息的几率相关,并且,展示信息组合对应的实际回报值越高,则在更新所述目标决策模型时,该展示信息组合中的候选展示信息在所述目标决策模型中的权重参数的增大程度越高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811647015.1/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置