[发明专利]一种基于关键词的长文本问答对生成系统有效
| 申请号: | 202010670132.0 | 申请日: | 2020-07-13 |
| 公开(公告)号: | CN111914062B | 公开(公告)日: | 2021-04-06 |
| 发明(设计)人: | 朱其立;沈李斌;张盛瑶;郭子路;李恺健;奚宁;李波 | 申请(专利权)人: | 上海乐言科技股份有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 施浩 |
| 地址: | 200050 上海市长*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 关键词 文本 答对 生成 系统 | ||
1.一种基于关键词的长文本问答对生成系统,其特征在于,系统包括生成模块和评估模块,生成模块输出数据至评估模块,生成模块用于针对段落文本及关键词生成与关键词相关的问答对,评估模块用于通过自动评估的方式评价问答对的质量,其中生成模块基于三阶段生成模型生成与关键词相关的问答对;
其中生成模块基于三阶段生成模型的配置为:生成模块包括依次串联的段落检索单元、答案范围提取单元以及问题生成单元,其中这三个单元单独训练;
段落检索单元用于基于信息检索模型,根据关键词从文本中检索出候选问答对在长文本中所处的候选段落,输出到答案范围提取单元,其中信息检索模型包括TF-IDF,BM25及BERT三种检索算法;
答案范围提取单元用于从候选段落中提取出答案范围,输出到问题生成单元,答案范围提取单元的提取算法包括:命名实体识别、指针网络和组块分析;
问题生成单元接收段落检索单元检索出的候选段落和答案范围提取单元提取出的答案范围,根据候选段落和答案范围中的其中一个答案,生成问题并和答案组成与关键词相关的问答对,问题生成单元的生成算法包括:序列-序列方法及UNILM模型。
2.根据权利要求1所述的基于关键词的长文本问答对生成系统,其特征在于,问题生成单元接收段落检索单元检索出的候选段落和答案范围提取单元提取出的答案范围,根据候选段落和答案范围中的其中一个答案,生成问题并和答案组成与关键词相关的问答对,问题生成单元的生成算法包括:序列-序列方法及UNILM模型。
3.根据权利要求2所述的基于关键词的长文本问答对生成系统,其特征在于,问题生成单元还通过添加对偶模型生成问题。
4.根据权利要求2所述的基于关键词的长文本问答对生成系统,其特征在于,生成模块还基于三阶段过滤生成模型实现,配置为:生成模块在依次串联的段落检索单元、答案范围提取单元、问题生成单元之后还串联一个问答对过滤器,问答对过滤器用于进一步挑选出和关键词相关的问答对。
5.根据权利要求4所述的基于关键词的长文本问答对生成系统,其特征在于,问答对过滤器分别通过相关性分类器和相似度计算实现。
6.根据权利要求5所述的基于关键词的长文本问答对生成系统,其特征在于,生成模块进一步配置为按照问答对和关键词的相关度进行排序,将关键词和有序的问答对列表输入到评价模块,评价模块针对整个问答对,使用一个端到端的指标来对每对生成的问答对进行评分。
7.根据权利要求6所述的基于关键词的长文本问答对生成系统,其特征在于,评价模块进一步配置为计算真实值的问答对和生成的问答对的分数矩阵,其中评价模块的评估指标包括BLEU、METEOR和ROUGE-L。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海乐言科技股份有限公司,未经上海乐言科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010670132.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:加速度计的校准方法与校准装置
- 下一篇:一种自动填充罐装工业黄油的设备





