[发明专利]基于物理环境博弈的自主进化智能对话方法、系统、装置有效

申请号：	201910014369.0	申请日：	2019-01-08
公开（公告）号：	CN109800294B	公开（公告）日：	2020-10-13
发明（设计）人：	许家铭;姚轶群;徐波	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06F16/332	分类号：	G06F16/332;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京市恒有知识产权代理事务所(普通合伙) 11576	代理人：	郭文浩;唐敏
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于物理环境博弈自主进化智能对话方法系统装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于人工智能及视觉对话领域，具体涉及了一种基于物理环境博弈的自主进化智能对话方法、系统、装置，旨在解决智能系统计算消耗大、收敛速度慢、处理信息精确度低的问题。本发明方法包括：获取待处理图像及对应问题文本；采用优化的对话模型将图片编码为图片向量，问题文本编码为问句向量；基于图片向量及问句向量生成状态向量；解码状态向量获得应答文本并输出。其中，对话模型的优化过程需引入判别器，对话模型与判别器交替优化直至对话模型的混合损失函数和判别器的损失函数值不再下降或低于预设值，完成模型优化。本发明方法与传统方法相比，计算消耗小、收敛速度快，进一步提高了处理信息的精确度。

技术领域

本发明属于人工智能及视觉对话领域，具体涉及了一种基于物理环境博弈的自主进化智能对话方法、系统、装置。

背景技术

在人工智能领域，训练一个能够理解数据的模型，最常用的方法是监督训练。监督训练通过最大化样本数据和对应的标签出现的概率，从统计分布角度设计目标函数，并对模型参数进行更新。监督训练需要大量的数据，并且以“从统计角度解释数据”为唯一目标，这与人类的实际学习过程并不相同，也因此监督学习存在一个明显的缺陷：当目标任务的某些重要部分缺乏标签和参照时，监督学习的效果会有明显下降。

人类的实际学习中，除了模仿之外，在有限的监督信息的条件下，通过与外界的交互博弈而进行自主更新的过程是必不可少的。目前能够从一定程度上模拟这一过程方法是使用强化学习。强化学习的目标是通过不断生成动作来进行尝试，最大化每一步决策所能获得的奖励的期望。强化学习需要定义完整的动作空间和外部奖励，因此往往只被用来解决单一的问题，例如如何在一个交互式游戏中取得更高的分数。然而，人类智能的自主进化过程中包含与物理世界环境的广泛的交互和博弈，而目前方法普遍只考虑了智能体之间的，人为任务设定下的交互博弈。这些方法只对特定的任务有效，而不同任务之间必须引入不同的动作空间和奖励机制，导致其缺少泛用性，设计复杂且难以扩展和迁移。

视觉对话生成是自然语言处理领域的重要问题。该问题的常见表现形式是，输入一张现实世界的图片和围绕该图片进行的若干轮对话历史文本，以及当前轮次从外部输入的语句，对话系统生成一句对当前轮次外部输入语句的应答语句。现有的基于强化学习和生成对抗学习的方法能够在一定程度上提高视觉对话的质量，但是计算消耗过大，基于反馈信号的策略梯度算法收敛较慢，并且没有考虑与物理世界的博弈或仅仅通过基于单样本的目标驱动来实现与物理世界的博弈，视觉对话质量有待进一步提高。

因此，如何在模型的训练过程中引入一种通用的、与物理环境进行博弈的方法，实现人类、机器、物理世界的三元博弈，以提高系统对视觉、文本等多模态信息的整合能力，同时不引入过大的计算复杂度，是人工智能及视觉对话领域的重要问题。

发明内容

为了解决现有技术中的上述问题，即为了解决智能系统计算消耗大、收敛速度慢以及处理信息精确度低的问题，本发明提供了一种基于物理环境博弈的自主进化智能对话方法，包括：

步骤S10，获取待处理图像及对应问题文本；

步骤S20，采用优化的对话模型生成所述待处理图像和对应问题文本的应答文本；

步骤S30，输出应答文本；

其中，所述对话模型包括图片编码模型、文本编码模型、状态编码模型、解码器；

所述图片编码模型基于预训练的卷积神经网络构建；

所述文本编码模型、状态编码模型、解码器为基于循环神经网络的语言模型；

所述文本编码模型包括问句编码器、事实编码器。

在一些优选的实施例中，所述优化的对话模型，其优化过程还需引入判别器，对话模型与判别器交替优化直至对话模型的混合损失函数和判别器的损失函数值不再下降或低于预设值，其步骤为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910014369.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于问题分类获取答案的方法、装置及电子设备
下一篇：基于情感词典和词概率分布的情感会话生成方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于物理环境博弈的自主进化智能对话方法、系统、装置有效

专利文献下载