[发明专利]一种基于深度学习的动作模型及其训练方法有效

申请号：	201911090220.7	申请日：	2019-11-08
公开（公告）号：	CN110852419B	公开（公告）日：	2023-05-23
发明（设计）人：	蔡佳然;卓汉逵	申请（专利权）人：	中山大学
主分类号：	G06N3/0455	分类号：	G06N3/0455;G06N3/08
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	陈伟斌
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习动作模型及其训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于深度学习的动作模型及其训练方法，动作模型包括数据补全模块、数据编解码模块和状态推理模块；对动作模型进行训练后，能够求解规划问题。本发明的动作模型能够补全原始数据的缺失部分，有效地解决在对动作模型训练的时候，原始数据部分缺失导致准确性差的问题。本动作模型通过数据训练，学习出状态在隐含空间的命题形式的表达，并学习在隐空间中的推理能力，使得问题可以通过搜索算法得到解序列；且训练过程均为无监督学习，高效地利用了深度学习在大量数据中总结规律的优点，无需耗费人工建模的成本。

技术领域

本发明涉及深度学习神经网络模型领域，更具体地，涉及一种基于深度学习的动作模型及其训练方法。

背景技术

在将经典规划的技术应用到实际生活时，有一个不可避免的过程，即建模。将现实生活的问题抽象为命题(Proposition)形式的表达、并且学习出其中的动作模型(ActionModel)，即人类通过充分利用自己的先验知识，甚至通过发现问题领域的规律，将领域内可能发生的动作(Action)的前提(Predicate)和效果(Effect)都总结出来，建立一个可以进行逻辑计算的严格的模型。当问题较简单时，这一流程的工作量尚可接受；但当遇到复杂问题时，建模工作对建模者的要求显著提高，甚至在特别复杂的领域，人类目前还无法清晰地理清其中的逻辑关系，无法建立模型，因而不能使用规划器进行求解。可见，动作模型(Action Model)的学习是规划技术落地的一个瓶颈。

如上文所述，将规划技术应用到实际生活中的问题上时，将问题抽象成命题形式、学习动作模型这样的建模工作对人类来说是成本较高的工作。对于这个技术难题，注意到深度学习在大量数据中挖掘规律的能力，可以通过提前收集的一些观测样本作为训练数据，使用深度学习的技术来学习出问题领域的动作模型。

此外，经典规划问题通常假设问题的状态都是完全可观测的。而在现实问题中，人们在记录一个序列的时候，可能会因为记录过程被干扰或者其他因素，导致记录下来的状态并不是完全可观测的，而是有部分信息丢失的、部分可观测的(如拍摄视频时，目标和摄像头中间存在部分遮挡物)，由于信息的丢失，最后的模型训练以及规划问题求解都无法保证准确性。

发明内容

本发明为克服上述现有技术中通过深度学习构建动作模型的方法中数据缺失的问题，提供一种基于深度学习的动作模型及其训练方法，能够补全缺失的数据并对动作模型进行训练。

为解决上述技术问题，本发明采用的技术方案是：提供一种基于深度学习的动作模型：包括数据补全模块、数据编解码模块、状态推理模块和搜索规划模块；

数据补全模块用于预测原始数据P中缺失的部分，并补充到原始数据中，生成完整可观测的数据O；

数据编解码模块，用于实现原始形式的数据O和隐含空间中的命题形式的数据S的双向转换；所述数码编解码模块包含两个子模块:编码模块和解码模块；编码模块用于将原始形式的数据O编码为隐含空间中的命题S；解码模块用于将隐含空间的命题S解码，得到原始形式的数据O；对于数据编解码模块，本发明采用变分自编码器来实现，对用于表示状态的命题形式的低维编码的采样使用GumbelSoftmax来实现。

状态推理模块，用于在隐含空间中的命题上进行推理，使得在给定当前时刻状态的命题S的条件下，可以得到下一个时刻的所有可能状态的命题S′；本发明采用变分自编码器来实现，对用于表示动作的低维编码的采样使用GumbelSoftmax来实现。

优选的，所述数据补全模块包括生成器和判别器，生成器的输入为:部分缺失的原始观测向量P、缺失部分的位置指示向量M；输出为:补全后的观测向量O；判别器的输入为:补全后的观测向量O、缺失部分的位置提示向量T；输出为:与观测向量O维度数相等的概率值与观测向量O维度数相等的向量，它的每一维是一个概率值，它的第i维数值表示输入向量O中的第i维是来自原始观测向量P的概率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911090220.7/2.html，转载请声明来源钻瓜专利网。

上一篇：可穿戴设备及其控制方法和控制装置
下一篇：一种低渗天然气水合物藏原位水力射流开采装置及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的动作模型及其训练方法有效

专利文献下载