[发明专利]一种基于关键词的长文本问答对生成系统有效

专利信息
申请号: 202010670132.0 申请日: 2020-07-13
公开(公告)号: CN111914062B 公开(公告)日: 2021-04-06
发明(设计)人: 朱其立;沈李斌;张盛瑶;郭子路;李恺健;奚宁;李波 申请(专利权)人: 上海乐言科技股份有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/332;G06F16/35;G06F40/289;G06K9/62;G06N3/04;G06N3/08
代理公司: 上海专利商标事务所有限公司 31100 代理人: 施浩
地址: 200050 上海市长*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 关键词 文本 答对 生成 系统
【权利要求书】:

1.一种基于关键词的长文本问答对生成系统,其特征在于,系统包括生成模块和评估模块,生成模块输出数据至评估模块,生成模块用于针对段落文本及关键词生成与关键词相关的问答对,评估模块用于通过自动评估的方式评价问答对的质量,其中生成模块基于三阶段生成模型生成与关键词相关的问答对;

其中生成模块基于三阶段生成模型的配置为:生成模块包括依次串联的段落检索单元、答案范围提取单元以及问题生成单元,其中这三个单元单独训练;

段落检索单元用于基于信息检索模型,根据关键词从文本中检索出候选问答对在长文本中所处的候选段落,输出到答案范围提取单元,其中信息检索模型包括TF-IDF,BM25及BERT三种检索算法;

答案范围提取单元用于从候选段落中提取出答案范围,输出到问题生成单元,答案范围提取单元的提取算法包括:命名实体识别、指针网络和组块分析;

问题生成单元接收段落检索单元检索出的候选段落和答案范围提取单元提取出的答案范围,根据候选段落和答案范围中的其中一个答案,生成问题并和答案组成与关键词相关的问答对,问题生成单元的生成算法包括:序列-序列方法及UNILM模型。

2.根据权利要求1所述的基于关键词的长文本问答对生成系统,其特征在于,问题生成单元接收段落检索单元检索出的候选段落和答案范围提取单元提取出的答案范围,根据候选段落和答案范围中的其中一个答案,生成问题并和答案组成与关键词相关的问答对,问题生成单元的生成算法包括:序列-序列方法及UNILM模型。

3.根据权利要求2所述的基于关键词的长文本问答对生成系统,其特征在于,问题生成单元还通过添加对偶模型生成问题。

4.根据权利要求2所述的基于关键词的长文本问答对生成系统,其特征在于,生成模块还基于三阶段过滤生成模型实现,配置为:生成模块在依次串联的段落检索单元、答案范围提取单元、问题生成单元之后还串联一个问答对过滤器,问答对过滤器用于进一步挑选出和关键词相关的问答对。

5.根据权利要求4所述的基于关键词的长文本问答对生成系统,其特征在于,问答对过滤器分别通过相关性分类器和相似度计算实现。

6.根据权利要求5所述的基于关键词的长文本问答对生成系统,其特征在于,生成模块进一步配置为按照问答对和关键词的相关度进行排序,将关键词和有序的问答对列表输入到评价模块,评价模块针对整个问答对,使用一个端到端的指标来对每对生成的问答对进行评分。

7.根据权利要求6所述的基于关键词的长文本问答对生成系统,其特征在于,评价模块进一步配置为计算真实值的问答对和生成的问答对的分数矩阵,其中评价模块的评估指标包括BLEU、METEOR和ROUGE-L。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海乐言科技股份有限公司,未经上海乐言科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010670132.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top