[发明专利]基于文本相似度算法的相似问题生成方法、系统、电子装置和存储介质有效
申请号: | 202110367263.6 | 申请日: | 2021-04-06 |
公开(公告)号: | CN113139040B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 嵇望;王伟凯;钱艳;朱鹏飞;安毫亿;梁青 | 申请(专利权)人: | 杭州远传新业科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06K9/62 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 张超 |
地址: | 311611 浙江省杭州市滨江区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 相似 算法 问题 生成 方法 系统 电子 装置 存储 介质 | ||
本申请涉及一种基于文本相似度算法的相似问题生成方法、系统、电子装置和存储介质,其中,该基于文本相似度算法的相似问题生成方法包括:获取交互场景文本数据,生成问答对文本;计算问答对文本中的答案文本与行业问答对中的答案文本的文本相似度,确定相似度最大的行业问答对;计算问答对文本中的问题文本与相似度最大的行业问答对中的问题文本的文本相似度,确定问题文本相似度最大值;将问题文本的相似度最大值与预设阈值进行比对,若满足预设阈值,则将问题文本相似度最大值对应的问答对文本中的问题文本补充到对应的行业问答对语料中作为问题文本的相似问题。通过本申请,解决了相关技术中生成的相似问题语句不通顺和包含冗余内容的问题。
技术领域
本申请涉及自然语言处理技术领域,特别是涉及基于文本相似度算法的相似问题生成方法、系统、电子装置和存储介质。
背景技术
在智能交互过程中,需要识别出用户的文本意图,进而触发相应的流程。
目前的智能客服机器人技术,主要是利用机器学习算法进行意图识别。而机器学习算法需要基于大量相似语料进行训练,故在智能客服机器人构建初期需要准备大量的标注数据。目前,训练数据一般是由业务人员进行人工标注生成的,存在周期长、标注成本高等问题,因此如何在智能机器人构建初期自动化的获取相关相似语料数据显得尤为关键。
为解决上述问题,在现有技术中,中国专利申请CN201810749005.2公开了一种自动生成FAQ相似问句的方法和装置,所述方法包括:根据选定的FAQ生成一个文本;判断生成文本与所述选定的FAQ是否相似;如果生成的文本与所述选定的FAQ相似,则该文本为所述选定的FAQ的相似问句。该方法虽然能自动生成相似问句,但是相似问句是基于句子生成规则生成的,规则不便于维护;且根据规则输出的相似问句可能存在语病等问题,不能直接用作训练数据。
在另一中国专利申请CN201811029233.9公开了问答对构建方法、装置及计算机可读存储介质,该方法包括:获取人工客服与用户的对话记录,并基于预设规则对所述对话记录进行处理,得到目标对话记录;基于所述目标对话记录确定标准形式问答对,并对所述标准形式问答对进行过滤处理,得到目标问答对;对所述目标问答对进行合并,并输出所述合并后的目标问答对,以供管理员进行审核。该专利在进行问答对构建时,采用是否包含疑问句的判断方法,但是真实场景下用户提出的咨询问题不一定包含疑问词,因此输出的语料取决于对疑问词的维护程度;且目标问答对的合并采用答案相同的方法,对于大量答案近似的问答对仍需要人工审核,效率不高;另外,在进行问答对构建时,需要将用户角色和客服角色的连续交互文本分别进行合并,导致最终生成的相似问题冗长,且可能包含过多与问题不相干的文本内容,影响最终的模型训练效果。
目前针对相关技术中生成的相似问题语句不通顺和包含冗余内容的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于文本相似度算法的相似问题生成方法、系统、电子装置和存储介质,以至少解决相关技术中生成的相似问题语句不通顺和包含冗余内容的问题。
第一方面,本申请实施例提供了一种基于文本相似度算法的相似问题生成方法,所述方法包括:
获取交互场景文本数据,生成问答对文本数据;
计算所述问答对文本数据中的问题文本与所述答案文本相似度最大值对应的行业问答对语料中的问题文本的文本相似度,确定问题文本相似度最大值对应的问答对文本数据;
将所述问题文本的相似度最大值与预设阈值进行比对,若满足所述预设阈值,则将所述问题文本相似度最大值对应的问答对文本数据中的问题文本补充到对应的行业问答对语料中,作为所述对应的行业问答对语料中的问题文本的相似问题。
在其中一些实施例中,所述获取交互场景文本数据,生成问答对文本数据,包括:
获取交互场景文本数据,将所述交互场景文本数据中的连续交互文本按时间顺序进行拼接;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州远传新业科技股份有限公司,未经杭州远传新业科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110367263.6/2.html,转载请声明来源钻瓜专利网。