[发明专利]用于语义混淆检测的方法及系统在审
申请号: | 202011586654.9 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112699226A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 汪燕燕;陈述;沈艺;张兵兵;钟涛 | 申请(专利权)人: | 江苏苏宁云计算有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/30 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 黄玉东 |
地址: | 210042 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语义 混淆 检测 方法 系统 | ||
本发明公开用于语义混淆检测的方法及系统,其中,该方法包括获取对话平台的全量知识库;对所述全量知识库中两两问句之间进行表层语义分析,识别出第一候选混淆问句对集合;基于所述全量知识库利用句向量模型识别出第二候选混淆问句对集合;融合所述第一候选混淆问句对集合和所述第二候选混淆问句对集合,得到目标候选混淆问句对集合;基于所述目标候选混淆问句对集合更新所述全量知识库。本发明提供的用于语义混淆检测的系统,采用上述用于语义混淆检测的方法,提高了知识库的质量,还通过构造数据闭环实现了数据迭代,进一步提高了混淆检测的精确度。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及用于语义混淆检测的方法及系统。
背景技术
对话平台知识库中每个知识点对应于一个问句的意图类,知识点内可能会存在不属于本知识点的边缘问句,知识点间也可能会存在语义相似的问句对。例如,申请价保服务这一知识点(意图类)下可能有以下相似问句:怎么进行保价/刚买的降价了我需要保价/旧机如何换钱/我昨天买的今天就便宜这么多/买的机器人可以回收吗/等。其中旧机如何换钱/买的机器人可以回收吗,这两个问句不属于申请价保服务这一知识点(意图类)下,则将其称为边缘问句。再例如,问句1:你好,买的多有优惠吗(对应知识点的标准问句:如何批量购买),问句2:买多能便宜吗(对应知识点的标准问句:价格能优惠吗),这两个问句属于不同的知识点(意图类),即问句1和问句2称为混淆问句对。边缘问句和混淆问句对的存在会影响每一个知识点下数据的纯度,进而降低对用户意图的识别准确率。因此,语义混淆检测是提升智能对话平台质量的重要方法,对于对话平台数据闭环的构造也具有重要意义。
目前语义混淆检测的主要方法,是将所有的混淆类作为一个新类别,进而将语义混淆检测转化成分类问题去解决。然而,这种解决方法有两方面的不足:
第一,现有方案无法适应智能对话平台知识库的不定期修改,也无法在平台运行的整个周期内打造数据闭环。具体来说,平台配置的训练语料是不确定的,会被定期修改,而语义混淆是相对于具体知识库语料来说的,而这本身存在矛盾,此外,不同对话系统配置的知识库不同,对应的混淆类也是不同的,因此无法给出确切的新类别范围,混淆类别定义则不确定,也就无法构造数据闭环。
第二,现有方案不能随着知识库意图数据的增多不断迭代优化模型,也不能对平台知识库进行实时/即时的混淆检测。一方面,随着对话平台的数据量不断增加,知识库语料越来越丰富,如何更好利用数据不断优化模型,这也是现有方案的局限性,然而分类问题受限于类别数,也不能充分利用大量语料。另一方面,在语义机器人运行周期中,对话平台知识库是不断变化的,而这种将语义混淆检测转化成分类问题的解决方案在线上实施会受到局限,导致无法拓展,即无法对平台知识库进行实时/即时的混淆检测。
发明内容
本发明的目的在于提供用于语义混淆检测的方法及系统,对平台知识库进行语料的提纯,提高了知识库的质量,还通过链接数据层和训练层,构造数据闭环,实现数据迭代,进一步提高了混淆检测的精确度。
为了实现上述目的,本发明提供如下技术方案:
一种用于语义混淆检测的方法,包括:
获取对话平台的全量知识库;
对所述全量知识库中两两问句之间进行表层语义分析,识别出第一候选混淆问句对集合;
基于所述全量知识库利用句向量模型识别出第二候选混淆问句对集合;
融合所述第一候选混淆问句对集合和所述第二候选混淆问句对集合,得到目标候选混淆问句对集合;
基于所述目标候选混淆问句对集合更新所述全量知识库。
优选地,对所述全量知识库中两两问句之间进行表层语义分析,识别出第一候选混淆问句对集合的方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏苏宁云计算有限公司,未经江苏苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011586654.9/2.html,转载请声明来源钻瓜专利网。