[发明专利]一种端到端的任务型对话系统的领域适应方法有效
申请号: | 201911199141.X | 申请日: | 2019-11-29 |
公开(公告)号: | CN111143522B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 贺樑;郁建峰;陈成才;杨燕;胡佳颖;陈培华 | 申请(专利权)人: | 华东师范大学;上海智臻智能网络科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06N3/0455;G06N3/044;G06N3/08 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 端到端 任务 对话 系统 领域 适应 方法 | ||
1.一种端到端的任务型对话系统的领域适应方法,其特征在于利用在源领域基于对话语料训练得到一个任务型对话模型,并将对话模型进行领域迁移,使模型能够适应目标领域,其具体方法包括以下步骤:
步骤1:在源领域训练任务型对话模型,使用编码-解码模型学习如何利用对话上下文信息生成回复;
步骤2:在源领域训练过程中,使用特征衰减模块来过滤和弱化源领域的特征;
步骤3:将对话模型迁移到目标领域,并使用特征加强模块强化目标领域的特征;
步骤4:将迁移的模型在目标领域进行测试;
所述步骤1在源领域训练任务型对话模型,使用编码-解码模型通过一个循环神经网络结构,从对话语句中充分捕捉细粒度的文本语义信息,将语句编码成一个隐向量表示,然后通过解码器解码生成回复语句;
假设用X表示一个输入的语句序列,其中包含n个词=…,循环神经网络将句子中的每一个词映射到一个低维度的稠密空间中,生成隐含层表示从而获得一个句子的整体表示;
在隐含层表示的基础上解码器解码生成回复语句序列=…,生成的由训练集进行最大似然估计;
上述整个编码-解码模型由两个循环神经网络组成,对于的解码过程,解码器首先获取的隐向量表示然后解码器分别计算和之间的注意力权值,再对所有的进行加权求和得到最后将和拼接送入输出层经过softmax操作后生成输出词,其过程的公式表示如下:
所述步骤2使用特征衰减模块在计算注意力权值之前,特征衰减模块先根据和计算掩码向量/89:,然后用/89:分别与和进行对应元素乘法,其计算公式如下:
使用和代替和进行后续的注意力权值计算和解码,其中,W和W为待学习参数;
所述步骤3使用特征加强模块强化目标领域的特征是在目标领域的训练过程中模型增加了特征增强模块,特征增强模块与特征衰减模块类似,在计算注意力权值之前,特征衰减模块先根据和分别计算各自的自注意力权值矩阵,然后对权值矩阵按行进行softmax操作,得到权值向量,用权值向量分别与和进行对应元素乘法,并使用进行乘法后的结果分别代替和进行后续的注意力权值计算和解码,所述自注意力权值计算公式如下:
其中:W和W为待学习参数;C为位置掩码,其表示如下:
2.根据权利要求1所述端到端的任务型对话系统的领域适应方法,其特征在于所述步骤2中的特征衰减模块在源领域模型的解码过程中对解码的隐向量和一个掩码向量做元素乘法,所述掩码向量的维度与隐向量相同,其元素取值在0~1之间。
3.根据权利要求1所述端到端的任务型对话系统的领域适应方法,其特征在于所述步骤3中的特征加强模块在目标领域模型解码过程中对解码的隐向量进行了自注意力机制操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学;上海智臻智能网络科技股份有限公司,未经华东师范大学;上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911199141.X/1.html,转载请声明来源钻瓜专利网。