[发明专利]一种实时搜索在线泛化方法在审

申请号：	201810455890.3	申请日：	2018-05-14
公开（公告）号：	CN108694440A	公开（公告）日：	2018-10-23
发明（设计）人：	陶黎成;陈志;岳文静;杨潇;李尧羿	申请（专利权）人：	南京邮电大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06F17/30
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	沈廉
地址：	210046 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	树搜索实时搜索搜索近似值估计记忆增强算法迭代特征表示选择权集合关联查询更新统计访问
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种实时搜索在线泛化方法，其特征在于，该方法包括以下步骤：

步骤1，输入一个搜索问题，其所有可能的状态的集合为S；N_s表示从状态s开始模拟的数量，V*(s)表示一个状态s的真实值；R_s，t表示模拟结果，用表示每一个状态s∈S在模拟中的数值估计；

步骤2，给定记忆M和一种状态x，根据距离尺度d(·,x)M近似描述通过上述方法计算出一种基于记忆的数值估计：

并且满足

其中，表示权函数，M是根据距离度量d(·,x)定义记忆结构中相邻状态的限制条件；

步骤3，建立蒙特卡洛树搜索模型，将树中的每个节点对应具体的状态s∈S，并包含模拟统计值和模拟数量N(s)，进行算法迭代时，每个模拟从初始状态s0状态开始进入树上阶段和回滚阶段，在搜索树特征状态变为st时，通过老虎机算法选择进入下一个状态；

步骤4，用距离函数d(s,x)近似估计V*(s)和V*(x)之间的差异，状态s、x∈S用函数φ:S→R^D来表示,近似得到w＝f_τ(-c).S表示深度卷积神经网络的内层，RD表示采用哈西函数标准化后的深度卷积神经网络的内层，w表示权函数的近似，τ表示平滑因子，c表示矢量ci＝δ_i+ε_i，x，1≤i≤M，将状态s的近似值估计误差表示为：将状态s和状态x的真实值之间的差异表示为：ε_s，x＝|V*(s)-V*(x)|，其中V*(x)表示状态x的真实值；

步骤5，将φ(s)、N(s)的每个入口与特定条件s∈S相关联，进行更新、添加与查询。φ(s)表示M包含状态的特征，表示模拟估计值，N(s)表示模拟数量；

步骤6，将蒙特卡洛树搜索结合记忆，在蒙特卡洛树搜索的树搜索期间，使用取代作为状态s的模拟估计值，λs表示延迟参数，确保不存在非对称的偏差，当搜索到一个叶状态时，生成一个特征表示函数，即φ(s)，然后将其用于询问记忆M的近似值从而更新s的所有过去状态。

2.根据权利要求1所述的一种实时搜索在线泛化方法，其特征在于，所述步骤2的具体步骤如下：

步骤21，给定一个记忆M和一种状态x，根据距离尺度d(·,x)M近似描述

步骤22，计算出一种基于记忆的数值估计：X_s，t＝|R_s，t-V*(s)|表示状态s第t次模拟的样本误差；

步骤23，采用蒙特卡洛算法中的UCT搜索算法，其中X_s，t服从亚高斯分布，样本误差的平均数为0，方差的上限为σ²，yin ci可将状态s的近似值估计误差表示为：而状态s和状态x的真实值之间的差异表示为：ε_s，x＝|V*(s)-V*(x)|，其中V*(x)表示状态x的真实值；

步骤24，根据亚高斯变量的属性，σ²服从―亚高斯分布，令ε_M＝max_i∈M_xε_i，x，从而记忆方案将ε_M控制在[0，ε]区间内，通过记忆结构来辅助近值似估计，记忆的每个入口包含特定状态的特征表示和模拟统计。

3.根据权利要求1所述的一种实时搜索的在线泛化方法，其特征在于，所述步骤3的具体步骤如下：

步骤31，树中的每个节点对应一个具体的状态s∈S，并包含和模拟数量N(s)；

步骤32，进行算法迭代时，每个模拟从初始状态s0开始，之后进入树上阶段和回滚阶段；

步骤33，在当前的搜索树表征了状态st时，通过老虎机算法选择进入下一个状态；

步骤34，对蒙特卡洛树之外的策略，树将应用Rollout算法模拟一场博弈直到结束，访问状态的轨迹表示为T＝{s0，s1，...,sT}，并在最后获得返回值R，树中的s∈T的统计根据下式进行更新：

在算法的每次迭代中，每个模拟从初始状态s0状态开始，之后进入两个阶段：树上阶段和回滚阶段，在当前的搜索树表征了状态st时，会应用树策略选择一个动作，以达到下一个状态。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京邮电大学，未经南京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810455890.3/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种实时搜索在线泛化方法在审

专利文献下载