[发明专利]一种基于匹配度进行内容匹配的智能问答系统有效
申请号: | 202211074234.1 | 申请日: | 2022-09-02 |
公开(公告)号: | CN115470332B | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 周欣;司惠菊;魏娟;谢仁强;石丽;郭雪飞;董江;席楠;翟畅;徐静;周露 | 申请(专利权)人: | 中国气象局机关服务中心;北京合众鼎成科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/36;G06F40/30 |
代理公司: | 北京知元同创知识产权代理事务所(普通合伙) 11535 | 代理人: | 刘元霞 |
地址: | 100081 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 匹配 进行 内容 智能 问答 系统 | ||
本发明公开了一种基于匹配度进行内容匹配的智能问答系统、以及基于匹配度进行内容匹配的方法及装置,其中方法包括:获取经过格式处理的查询内容;确定经过格式处理的查询内容与每个文本段落的候选段落匹配度,将候选段落匹配度大于第一匹配度阈值的文本段落确定为候选段落;在每个候选段落中选择与经过格式处理的查询内容相关联的答案片段,并确定经过格式处理的查询内容与每个答案片段的答案片段匹配度;基于候选段落匹配度和答案片段匹配度,确定经过格式处理的查询内容与答案片段的匹配度;以及基于经过格式处理的查询内容与答案片段的匹配度,从多个答案片段中选择与经过格式处理的查询内容相关联的至少一个目标子段落。
技术领域
本发明属于自然语言处理技术领域,并且更具体地,涉及一种基于匹配度进行内容匹配的智能问答系统、以及基于匹配度进行内容匹配的方法及装置。
背景技术
基于知识图谱技术的问答系统要求将目标领域的专门知识以知识图谱的方式进行表达,同时将用户非结构化的提问内容转换为结构化形式的图谱查询语句。常用的技术包括基于语义解析和基于路径检索两种方式,其中前者是对用户的问题进行语义解析,将问题直接转换为图谱的查询语句,从而通过查询获得答案;后者则更善于处理复杂的问题,能够以多跳的方式给出问题的检索路径,可解释性强。然而构造特定的目标领域专门知识的知识图谱本身并非易事,因此现有技术的解决方式的前提条件比较苛刻,并且难以满足。
问答对检测技术首先需要将特定的目标领域的专门知识全部整理为问答对的形式,并预先保存为问答对库。随后,对用户提问的回答则通过匹配用户问题与问答对库中的问题的方式进行,将匹配后得到的问答对中的答案返回即可。这种方法简单、直接,但是问答的质量取决于预先保存的问答对,前期的问答对库的建立可能是一个非常浩大的工程。
因此,现有技术中存在对于智能问答系统的需求。
发明内容
为了解决现有技术中的问题,本发明提供了基于重排序阅读理解算法的智能问答系统,能够对目标系统的各类型文档进行智能化处理,通过本发明提出的有别于现有智能问答技术方案的算法,即重排序阅读理解算法,对相关的各种类型的问题自动生成对应的答案,从而实现针对各种类型的问题的智能问答功能。
有别于聊天式和指令性的对话系统,本发明涉及的对话系统针对各种类型的规则等专门知识,并且答案空间相对封闭。本申请的具有上述知识查询特点的问答系统主要包括基于知识图谱技术、问答对检测技术和文档问答技术等。
本发明提供的技术方案有别于现有技术中的主要技术,本发明提供的技术方案涉及的技术主要包括问题自然语言理解和知识匹配技术。系统首先通过训练获得一个基于多文档的重排序系统,其中第一步将多文档拆分为段落,并使用经过预训练的BERT网络对段落和典型的答案进行编码,采用特定的损失函数训练该BERT网络,对文档段落和典型问题进行文本匹配,并设置一阈值,过滤匹配程度低的段落和问题对,形成候选段落和问题匹配对;第二步,设计另一个经过预训练的BERT网络对候选段落和问题匹配对进行编码,采用基于交叉熵的另一损失函数,训练该网络预测段落所包含精确答案片段的起止位置信息,即从匹配的段落文字中预测出精确匹配问题的答案。上述训练过程以离线的方式预先完成。
训练完成后的系统以在线方式对用户提问进行备选答案排序,其排序准则综合考虑了上述的两个步骤的结果,即用户提问与各备选段落的匹配度,和用户提问与各备选答案的匹配度,后者采用对数平滑后与前者相乘,以该结果对所有备选答案排序,并返回排序中前N个答案。
根据本发明的一个方面,提供一种基于匹配度进行内容匹配的方法,所述方法包括:
获取用户输入的原始查询内容,对所述原始查询内容进行格式处理以获取经过格式处理的查询内容;
确定所述经过格式处理的查询内容与文本内容库内多个文本段落中每个文本段落的候选段落匹配度,将候选段落匹配度大于第一匹配度阈值的文本段落确定为候选段落;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国气象局机关服务中心;北京合众鼎成科技有限公司,未经中国气象局机关服务中心;北京合众鼎成科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211074234.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体装置及其制作方法
- 下一篇:一种物流中转车及其定向轨道
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法