[发明专利]一种基于深度学习的动作模型及其训练方法有效
| 申请号: | 201911090220.7 | 申请日: | 2019-11-08 |
| 公开(公告)号: | CN110852419B | 公开(公告)日: | 2023-05-23 |
| 发明(设计)人: | 蔡佳然;卓汉逵 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06N3/0455 | 分类号: | G06N3/0455;G06N3/08 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 陈伟斌 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 动作 模型 及其 训练 方法 | ||
1.一种基于深度学习的动作模型,其特征在于,包括数据补全模块、数据编解码模块、状态推理模块和搜索规划模块;
数据补全模块用于预测原始数据P中缺失的部分,并补充到原始数据中,生成完整可观测的数据O;数据补全模块包括生成器和判别器,生成器正向运算公式如下:
Pz=M⊙P+(1-M)⊙Z
HG1=ReLU(WG1*[Pz;M]+bG1)
HG2=ReLU(WG2*HG1+bG2)
Ho=σ(WGo*HG2+bGo)
O=M⊙P+(1-M)⊙HGo
判别器正向运算公式如下:
HD1=ReLU(WD1*[O,T]+bD1)
HD2=ReLU(WD2*HD1+bD2)
其中,Z为d维噪声向量;[;]为维度相同的两个变量的拼接操作,*为矩阵相乘,ReLU(·)为线性整流函数,σ(·)为sigmoid函数;
WG1,bG1,WG2,bG2,WGo,bGo为网络超参数;
WD1,bD1,WD2,bD2,WDo,bDo为网络超参数
数据编解码模块,用于实现原始形式的数据O和隐含空间中的命题形式的数据S的双向转换;所述数据编解码模块包含两个子模块:编码模块和解码模块;编码模块用于将原始形式的数据O编码为隐含空间中的命题S;解码模块用于将隐含空间的命题S解码,得到原始形式的数据O;所述数据编解码模块的训练数据集的样本为观测向量P,将原始观测样本经过补全自后,得到原始观测数据O;所述数据编码模块包括编码器模块和解码模块,公式分别为:
S=SEn(O)
其中,S的维度大小为m*2,表示m个2维one-hot向量,其现实含义为m个值为真或假的命题,m是一个人工设置的网络超参数;SEn为可训练的神经网络;为d维向量;SDe为可训练的神经网络;
状态推理模块,用于在隐含空间中的命题上进行推理,使得在给定当前时刻状态的命题S的条件下,得到下一个时刻的所有可能状态的命题S′;
原始数据中的问题进行求解,对每个问题,给定初始状态的观测图片P0和缺失部分的位置指示变量M0,以及目标状态的观测图片Pg和缺失部分的位置指示变量Mg,规划阶段的具体步骤如下:
步骤1,将初始状态的观测图片P0和缺失部分的位置指示变量M0,以及目标状态的观测图片Pg和缺失部分的位置指示变量Mg,分别输入到数据补全模块的生成器G中,得到补全后的初始状态观测图片O0,以及补全后的目标状态的观测图片Og。
步骤2:给定观测图片O0与Og,使用数据编解码模块的编码子模块,将O0与Og分别编码成隐空间下的命题形式状态向量S0与Sg。
步骤3:以S0为起点,利用状态推理模块和搜索规划模块进行前向搜索,直到下一时刻的状态中包含Sg,并记录下搜索路径R。
状态推理模块和搜索规划模块进行前向搜索的过程为:首先给定初始状态S0,目标状态Sg。然后,定义启发函数F(S)的计算规则:G(S)为当前实际成本,是指从初始状态S0到当前状态S的步数;H(S)为启发成本,是指当前状态S与目标状态Sg的曼哈顿距离。然后,进行以下搜索求解步骤:
步骤i.初始化“开启”列表、“关闭”列表为空列表,计算状态S0的成本F(S0)=G(S0)+H(S0),并把初始状态S0放入“开启”列表。
步骤ii.从“开启列表”中选择F最小的状态S,将其移出“开启”列表并添加到“关闭”列表。
步骤iii.判断S是否等于Sg,若是,跳转到步骤vi;否则跳转到iv。
步骤iv.枚举所有的动作A,通过状态推理模块的编码器AFn得到该状态下一时刻的所有可能状态{Sn},将{Sn}中不在“关闭”列表内的状态去除,将这些状态的父节点设置为当前状态S。
步骤v.计算{Sn}中各个状态的成本F(Sn)=G(Sn)+H(Sn),跳转到步骤ii。
步骤vi.通过搜索过程中记录的每个状态的父节点,回溯获取从初始状态S0到当前状态S的路径,即解序列{Si}。输出{Si},求解结束。
步骤4:使用数据编解码模块的解码子模块,将搜索路径R的所有命题形式的状态向量{S0,S1,…,Sg}解码,得到图片形式的解序列{O0,O1,…,Og},即规划问题的解。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911090220.7/1.html,转载请声明来源钻瓜专利网。





