[发明专利]一种自适应的随机多臂决策问题计算方法及其装置在审
| 申请号: | 201710174634.2 | 申请日: | 2017-03-22 |
| 公开(公告)号: | CN106886389A | 公开(公告)日: | 2017-06-23 |
| 发明(设计)人: | 周倩;章晓芳;章鹏 | 申请(专利权)人: | 苏州大学 |
| 主分类号: | G06F7/50 | 分类号: | G06F7/50;G06F7/58 |
| 代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 罗满 |
| 地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种自适应的随机多臂决策问题计算方法及其装置,包括初始化每个动作的估计值和选择次数;依据各个动作的估计值和选择次数,确定估计值最小的动作的选择次数m;按照w/(w+m2)的概率进行探索,1‑w/(w+m2)的概率进行利用;w为预设算法参数,探索操作为从当前选择次数最少的动作中随机选取一个动作作为下一时间步的动作,利用操作为选择当前估计值最大的动作作为下一时间步的动作;下一时间步的动作选择完成后,生成随机奖赏;依据随机奖赏及所选择的动作更新各个动作的估计值及选择次数,重新确定m,直至全部动作完成后,统计预设最大时间步内得到的随机奖赏之和,得到累积奖赏。本发明能够均衡探索和利用的选择,并保证最终的决策效果,且适用范围广泛。 | ||
| 搜索关键词: | 一种 自适应 随机 决策 问题 计算方法 及其 装置 | ||
【主权项】:
一种自适应的随机多臂决策问题计算方法,其特征在于,包括:步骤s101:初始化每个动作的估计值和选择次数;步骤s102:依据当前各个所述动作的估计值和选择次数,确定估计值最小的动作的选择次数m,得出当前时间步的探索概率w/(w+m2);步骤s103:按照w/(w+m2)的概率进行探索操作,1‑w/(w+m2)的概率进行利用操作;其中,w为预设算法参数,所述探索操作为从当前选择次数最少的若干个动作中随机选取一个动作作为下一时间步的动作,所述利用操作为选择当前估计值最大的动作作为下一时间步的动作;步骤s104:下一时间步的动作选择完成后,生成随机奖赏;步骤s105:依据所述随机奖赏以及所选择的动作更新各个所述动作的估计值以及选择次数,返回步骤s102,直至完成预设最大时间步的动作后,进入步骤s106;步骤s106:统计所述预设最大时间步内得到的随机奖赏之和,得到累积奖赏。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710174634.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种播放音频数据的方法及终端
- 下一篇:一种windows系统屏幕锁定方法





