[发明专利]任务导向型对话策略生成方法在审

申请号：	202110312779.0	申请日：	2021-03-24
公开（公告）号：	CN112949858A	公开（公告）日：	2021-06-11
发明（设计）人：	孟亚磊;刘继明;金宁;陈浮;赵经纬	申请（专利权）人：	网经科技（苏州）有限公司
主分类号：	G06N3/08	分类号：	G06N3/08;G06K9/62
代理公司：	江苏圣典律师事务所 32237	代理人：	王玉国
地址：	215021 江苏省苏州市工***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	任务导向对话策略生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及任务导向型对话策略生成方法，先建立对话状态跟踪器，确定对话状态空间与动作空间及其形式化表示；再使用变分自动编码器模拟对话状态；使用多层感知器与Gumbel Softmax模拟对话动作；模拟样本生成器与判别器对抗训练；最后使用增强学习方法训练对话策略。首先使用模拟样本生成器来学习奖励函数，来自判别器的损失可直接反馈给生成器进行优化；其次，训练好的判别器作为对话奖励被纳入增强学习过程中用于指导对话策略学习；可利用任何增强学习算法来更新对话策略；可先通过区分人类与机器各自生成的对话，推断出人类生成的高质量对话中包含的共同信息，然后充分利用学到的信息，以迁移学习的方式指导新领域的对话策略学习。

技术领域

本发明涉及一种任务导向型对话策略生成方法，属于自然语言处理技术领域。

背景技术

任务导向型对话系统旨在为用户提供完成特定任务，如订酒店、买电影票等服务；这种对话系统需要特定的对话策略以便根据当前对话的上下文，在每个对话轮次中选取最合适的动作。

增强学习在机器人和其他领域的发展给对话策略学习带来新的灵感，在明确状态空间与动作空间之后，任务导向型对话系统的目标就是最大化用户的正反馈。基于增强学习的对话策略学习方法适合采用用户模拟器代替真人进行训练，以便获取能覆盖各种对话状态空间的大量对话数据，用户模拟器的质量取决于给特定上下文的系统动作打分的奖励函数。

设计奖励函数的一个直接办法是基于对话状态以规则的方式打分：如果对话成功结束，则返回一个大的正奖励；如果对话失败，则返回一个大的负奖励；如果对话仍在进行中，则返回一个小的负值以鼓励以更少的轮数完成对话。然而这种方案不够灵活，因为在对话结束前给所有系统动作分配了相同的负值奖励。另外，仅仅在对话结束后才返回奖励可能在对话过程中推迟了对低质量动作的惩罚和对高质量动作的奖励。

有学者提出对抗式策略学习，联合训练两个系统来解决上述困难，一个系统是策略模型，决定在每个对话轮次采取哪个动作；另一个系统是判别器，判别动作在当前对话状态下是否为合理回应。但是这种方法仅限于基于策略梯度的算法，可以交替更新对话策略和奖励模型；而非策略梯度方法则无法从自学习的奖励函数中受益。另外对话策略与奖励模型的交替循环很容易陷入局部最优状态或者导致模式崩溃。

发明内容

本发明的目的是克服现有技术存在的不足，提供一种任务导向型对话策略生成方法。

本发明的目的通过以下技术方案来实现：

任务导向型对话策略生成方法，特点是：包括以下步骤：

S101)建立对话状态跟踪器，确定对话状态空间与动作空间及其形式化表示；

对话状态跟踪器用于记录对话过程的槽位填槽状态，包括用户给出约束条件的信息槽和表示用户请求的请求槽，每个领域的每个槽位维持和更新一置信度向量；

S102)使用变分自动编码器模拟对话状态；

将人与人对话状态的离散表示通过一编码器Enc投影到一连续空间，得到一个隐变量；编码器Enc采用预训练的变分自动编码器VAE，由编码器得到的隐变量z通过解码器Dec重建人与人对话的状态；

于是给定一个人类生成的状态s，用条件概率编码器推断z，因z服从qω(z|s)的概率分布，以数学形式表示为公式(1)：

z～Enc(s)＝qω(z|s) (1)

编码器与解码器的优化目标是给定z的情况下ψ为参数的解码器重建输入s的概率接近1，同时编码器分布qω(z|s)接近标准高斯分布；因此优化过程的损失函数表示为公式(2)：

LossVAE(ω,ψ)＝Ex_z～qω(z|s)[log pψ(s|z)]+KL(qω(z|s)||p(z)) (2)