[发明专利]门控线性上下文博弈机在审
| 申请号: | 202080070862.5 | 申请日: | 2020-10-08 |
| 公开(公告)号: | CN114641778A | 公开(公告)日: | 2022-06-17 |
| 发明(设计)人: | 埃伦·塞泽内尔;乔尔·威廉·韦内斯;马库斯·胡特尔;王佳楠;戴维·巴登 | 申请(专利权)人: | 渊慧科技有限公司 |
| 主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08;G06N7/00 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
| 地址: | 英国*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 门控 线性 上下文 博弈 | ||
1.一种响应于上下文序列中的每个上下文而从要执行的动作集合中选择动作的方法,所述方法包括:
维持指定与所述多个动作中的每个动作相对应的相应门控线性网络的数据,其中,每个门控线性网络被配置为预测如果响应于输入上下文执行对应动作则将接收到回报的概率,并且其中,每个门控线性网络包括多个层,每层包括一个或多个神经元,其中在第一层之后的每层中的每个神经元被配置为接收(i)所述输入上下文和(ii)来自前一层中的神经元的预测,并且(iii)将门控函数应用于所述输入上下文以选择权重向量,并且(iv)基于所选择的权重向量来生成来自所述前一层中的神经元的预测的几何混合作为输出;
对于所述上下文序列中的每个上下文:
对于每个动作,使用对应于所述动作的门控线性网络来处理所述上下文以生成预测概率;
对于每个动作,至少根据所述预测概率来生成针对所述动作的动作分值;以及
基于所述动作分值响应于所述上下文而选择要执行的动作。
2.根据权利要求1所述的方法,其中基于所述动作分值响应于所述上下文而选择要执行的动作包括选择具有最高动作分值的动作。
3.根据任一前述权利要求所述的方法,其中,对于每个动作,至少根据所述预测概率来生成针对所述动作的动作分值包括:
计算针对所述动作的伪计数;以及
根据针对所述动作的预测概率和针对所述动作的伪计数来生成所述动作分值。
4.根据权利要求3所述的方法,其中,计算伪计数包括:
确定(i)跨针对所述动作的门控线性网络中的神经元的门控函数的上下文的签名与(ii)所述序列中的下述较早上下文的签名之间的重叠:针对该较早上下文,所述动作被选择为响应于该较早上下文而执行的动作。
5.根据任一前述权利要求所述的方法,还包括:
对于所述上下文序列中的每个上下文:
接收回报;以及
基于所述回报来更新针对所选择的动作的门控线性网络。
6.根据权利要求5所述的方法,其中,更新针对所选择的动作的门控线性网络包括:
基于特定于神经元的损失来局部地更新所述门控线性网络中的每个神经元。
7.根据任一前述权利要求所述的方法,其中,所述多个层中的最后层仅包括单个神经元,并且其中,所述门控线性网络的预测概率是所述单个神经元的输出。
8.根据任一前述权利要求所述的方法,其中,所述多个层中的第一层中的神经元接收所述输入上下文和基本预测集合。
9.一种响应于上下文序列中的每个上下文从要执行的动作集合中选择动作的方法,所述方法包括:
维持指定与所述多个动作中的每个动作相对应的相应门控线性网络树的数据,其中,每个门控线性网络树共同地被配置为预测回报值范围的多个区间中的每个区间的相应概率,其中,每个区间的相应概率表示如果响应于输入上下文执行所述对应动作则将接收到落在所述区间中的回报的可能性,并且其中,每个门控线性网络包括多个层,每层包括一个或多个神经元,其中在第一层之后的每层中的每个神经元被配置为接收(i)所述输入上下文和(ii)来自前一层中的神经元的预测,并且(iii)将门控函数应用于所述输入上下文以选择权重向量,并且(iv)基于所选择的权重向量来生成来自所述前一层中的神经元的预测的几何混合作为输出;
对于所述上下文序列中的每个上下文:
对于每个动作,使用对应于所述动作的门控线性网络树来处理所述上下文,以生成所述回报值范围的多个区间中的每个区间的相应概率;
对于每个动作,至少根据所述相应概率来生成针对所述动作的动作分值;以及
基于所述动作分值响应于所述上下文而选择要执行的动作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080070862.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:具有支架的飞机乘客座椅以及座椅排
- 下一篇:粘合剂递送系统





