[发明专利]一种基于关键词的长文本问答对生成系统有效
| 申请号: | 202010670132.0 | 申请日: | 2020-07-13 |
| 公开(公告)号: | CN111914062B | 公开(公告)日: | 2021-04-06 |
| 发明(设计)人: | 朱其立;沈李斌;张盛瑶;郭子路;李恺健;奚宁;李波 | 申请(专利权)人: | 上海乐言科技股份有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 施浩 |
| 地址: | 200050 上海市长*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 关键词 文本 答对 生成 系统 | ||
本发明公开了基于关键词的长文本问答对生成系统,实现根据文本及关键词生成与关键词相关且有意义的问答对。其技术方案为:系统包括生成模块和评估模块,生成模块针对段落及关键词生成与关键词相关的问答对,评估模块通过自动评估方式评价问答对质量。生成模块基于三阶段生成模型生成问答对:依次串联的段落检索单元、答案范围提取单元以及问题生成单元。其中段落检索单元用于基于信息检索模型,根据关键词从文本中检索出候选问答对在长文本中所处的候选段落;答案范围提取单元用于从候选段落中提取出可能存在的答案范围;问题生成单元根据候选段落和答案范围中的其中一个答案,生成问题并和答案组成与关键词相关的问答对。
技术领域
本发明涉及一种长文本问答对的处理技术,具体涉及一种基于关键词的长文本问答对生成系统。
背景技术
基于文本的问答对生成是一项根据给定文档生成在句法和语义上有意义且相关的问答对的任务。给定一个文档,有可能产生许多问题和答案。但是并非所有生成的问答对都与用户的观点相关。在生成问答对时,如果有用户指定的关键词(或主题)作约束,就能生成更有针对性和实际指导意义的问答对。
例如,图1显示了从文档中生成的一组与不同方面相关的问答对。当用户指定了“元素属性”这一关键词时,问题“氧气的原子数是多少?”比起“氧气是什么时候被发现的?”更适合被提问。当用户对“化学反应”这一主题更感兴趣时,问答对4和5更能突出这个方面。
然而,现有的问答对生成的工作大多都是用如下步骤生成的:1)提取有意义的短语作为文档中的答案;2)生成有关文档和特定答案范围的问题。现有的方法以及现存的数据集都没有考虑过基于关键词针对文本生成问答对,因此,很容易生成一些无意义的、用户不关心的问答对。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种基于关键词的长文本问答对生成系统,实现了根据文本及关键词生成与关键词相关且有意义的问答对。
本发明的技术方案为:本发明揭示了一种基于关键词的长文本问答对生成系统,系统包括生成模块和评估模块,生成模块输出数据至评估模块,生成模块用于针对段落文本及关键词生成与关键词相关的问答对,评估模块用于通过自动评估的方式评价问答对的质量,其中生成模块基于三阶段生成模型生成与关键词相关的问答对。
根据本发明的基于关键词的长文本问答对生成系统的一实施例,生成模块基于三阶段生成模型的配置为:生成模块包括依次串联的段落检索单元、答案范围提取单元以及问题生成单元,其中这三个单元单独训练。
根据本发明的基于关键词的长文本问答对生成系统的一实施例,段落检索单元用于基于信息检索模型,根据关键词从文本中检索出候选问答对在长文本中所处的候选段落,输出到答案范围提取单元,其中信息检索模型包括TF-IDF,BM25及BERT三种检索算法。
根据本发明的基于关键词的长文本问答对生成系统的一实施例,答案范围提取单元用于从候选段落中提取出可能存在的答案范围,输出到问题生成单元,答案范围提取单元的提取算法包括:命名实体识别、指针网络和组块分析。
根据本发明的基于关键词的长文本问答对生成系统的一实施例,问题生成单元接收段落检索单元检索出的候选段落和答案范围提取单元提取出的答案范围,根据候选段落和答案范围中的其中一个答案,生成问题并和答案组成与关键词相关的问答对,问题生成单元的生成算法包括:序列-序列方法及UNILM模型。
根据本发明的基于关键词的长文本问答对生成系统的一实施例,问题生成单元还通过添加对偶模型生成问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海乐言科技股份有限公司,未经上海乐言科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010670132.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:加速度计的校准方法与校准装置
- 下一篇:一种自动填充罐装工业黄油的设备





