[发明专利]一种不完整对话改写方法、装置及存储介质在审
申请号: | 202211422085.3 | 申请日: | 2022-11-14 |
公开(公告)号: | CN115795006A | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 周兴发;杨兰;谭斌;饶璐;孙锐;展华益 | 申请(专利权)人: | 四川启睿克科技有限公司;四川长虹电子控股集团有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 刘堋 |
地址: | 610000 四川省成都市中国(四川)*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 完整 对话 改写 方法 装置 存储 介质 | ||
本发明公开了一种不完整对话改写方法、装置及存储介质,所述方法包括:获取历史对话,并对所述历史对话和不完整对话进行预处理;将历史对话和不完整对话内容输入改写操作判断模型得到插入操作矩阵和替换操作矩阵;基于插入操作矩阵抽取插入操作信息;基于替换操作矩阵抽取替换操作信息;基于插入操作信息和替换操作信息对原始不完整对话进行最终的改写。本发明能实现不完整对话与信息完整的对话间的高度重合,生成与历史对话信息语义相符的对话,且能对同时存在一个或多个指代和省略项的不完整对话进行改写,从而达到补充完整对话中的信息,提升对话理解的效果。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种不完整对话改写方法、装置及存储介质。
背景技术
近年来,随着自然语言处理和大数据技术的快速发展,人机对话系统已逐渐成为了人工智能领域的一个重要研究领域,并已经开发出各种各样的智能客服和虚拟助手在电商、社交、以及手机等领域得到了广泛应用。根据人与对话系统交互的轮数,对话系统可分为:单轮对话系统和多轮对话系统。基于海量的历史数据和成熟的自然语言处理技术,单轮对话的回复生成方法已经很成熟,然而在实际对话中多轮对话是更广泛的存在。在多轮对话过程中,为了交流的简洁、流畅和高效性,用户常常会输入信息不完整的对话语句(指代或者省略)。例如:“成都的天气怎样?”,“阴天。”,“为什么总是这样”,最后一个对话信息补全完整后应为:“成都为什么总是阴天”,即同时存在指代和省略现象。多轮对话中普遍的存在对省略、指代等现象,对对话理解产生了极大的干扰,一种常用的解决方法是对不完整对话进行改写补全信息,然后采用单轮对话的方法进行对话理解。
目前不完整对话改写方案主要有以下三种方案:
方案一:基于生成的方法。该方法首先采用编码器对历史对话和不完整对话进行语义编码,然后采用解码器对语义编码进行解码直接生成信息完整的对话。生成方法从第一个单词开始生成信息完整的对话,没有考虑到不完整对话与信息完整的对话间的高度重合,导致生成与历史对话信息语义不符合的对话。
方案二:基于序列标注的方法。序列标注方法的其中一种解决方法为:首先标注出关键信息开始位置、关键信息结束位置、补全位置、指代开始位置和指代结束位置,然后在补全位置处插入关键信息开始位置和关键信息结束位置间的信息片段或者用关键信息开始位置和关键信息结束位置间的信息片段替换指代开始位置和指代结束位置间的片段,存在的问题是不能对同时存在指代和省略项的不完整对话进行改写。
方案三:基于生成和序列标注结合的方法。该方法首先对不完整对话进行序列标注,得到包含删除、保留和替换三种标签的一个标签序列。然后针对标签序列,删除删除标签对应的序列,保留保留标签对应的序列。最后采用生成方法生成替换标签对应的序列。该类方法存在于基于生成方法一样的问题:没有考虑到不完整对话与信息完整的对话间的高度重合,导致生成与历史对话信息语义不符合的对话。此外,序列标注的错误将级联传播到生成操作。
综上所述,现有的不完整对话改写方法存在没有考虑到不完整对话与信息完整的对话间的高度重合,导致生成与历史对话信息语义不符合的对话,或者不能对同时存在指代和省略项的不完整对话进行改写的问题。
发明内容
本发明提供了一种不完整对话改写方法、装置及存储介质,以解决现有技术中的不完整对话改写方法存在没有考虑到不完整对话与信息完整的对话间的高度重合,导致生成与历史对话信息语义不符合的对话,或者不能对同时存在指代和省略项的不完整对话进行改写的问题。
本发明采用的技术方案是:提供一种不完整对话改写方法,包括:
获取历史对话,并对所述历史对话和不完整对话进行预处理;
将历史对话和不完整对话内容输入改写操作判断模型得到插入操作矩阵和替换操作矩阵;
基于插入操作矩阵抽取插入操作信息;
基于替换操作矩阵抽取替换操作信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川启睿克科技有限公司;四川长虹电子控股集团有限公司,未经四川启睿克科技有限公司;四川长虹电子控股集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211422085.3/2.html,转载请声明来源钻瓜专利网。