[发明专利]一种基于bert并融合句群检索的答案抽取方法有效

专利信息
申请号: 202110361140.1 申请日: 2021-04-02
公开(公告)号: CN113032541B 公开(公告)日: 2023-05-12
发明(设计)人: 程燕;朱江;张振海 申请(专利权)人: 同方知网数字出版技术股份有限公司;《中国学术期刊(光盘版)》电子杂志社有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06F40/126;G06F40/216
代理公司: 北京天奇智新知识产权代理有限公司 11340 代理人: 陈新胜
地址: 100192 北京市海淀区西小口路66号中关村东升科技*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 bert 融合 检索 答案 抽取 方法
【说明书】:

发明公开了一种基于bert并融合句群检索的答案抽取方法,包括:构建基于bert的答案抽取模型;基于生成的答案抽取模型,联合句群相似检索技术进行问题答案的抽取;具体包括:从文档中利用片段相似检索技术将与待回答问题有浅层语义相关的句群片段找见,并进行相关度评分;根据评分高低排序,获取满足特定阈值评分的句群片段作为候选句群片段;将候选句群片段以及待回答问题输入基于bert的答案抽取模型,进行答案跨度预测;答案起始和结束位置,依据原文句群片段内容,计算具体的答案结果。

技术领域

本发明涉及人工智能、自然语言处理技术领域,尤其涉及一种基于bert并融合句群相似检索的答案抽取方法。

背景技术

答案抽取是问答系统核心技术之一,也是一种抽取式阅读理解,其是自然语言处理、人工智能领域核心任务之一,近些年受到了广泛的关注和研究。抽取式阅读理解技术,即机器从大量文本中快速找到问题的准确答案,提升信息获取、知识获取的效率。

早期的问答系统答案抽取依赖手工规则或特性,特征通常非常稀疏,泛化能力弱,很难推广到更广的领域。近年来,随着深度学习技术的使用,抽取式阅读理解能力有了大幅提高,能够更好的实现语义表达。基于深度学习的答案抽取相比传统方法有了一定的进展,在简单事实类型问题的答案抽取上取得了较好的效果,但在非简单事实类型问题方面仍表现不佳,研究进展较慢,存在很大的提升空间,当前更多是学术界的研究。目前答案抽取仍面临以下问题:

(1)答案抽取准确性不高,实际应用效果差,适应性弱;

(2)缺乏大规模规范语料,语料标注成本高,尤其中文大规模训练数据缺失,领域迁移困难;

综上,抽取式阅读理解技术,面向问题的答案抽取,在实际应用中仍存在很多问题亟待解决,答案抽取效果不佳,领域迁移难。

发明内容

为解决上述技术问题,解决从结构化文本中提取定义、方法、原因、人物、时间、地点等类型问题的答案,并将其应用到具体的知识问答中,本发明的目的是提供一种基于bert并融合句群相似检索的答案抽取方法,由此解决答案抽取效果不佳问题,提升答案抽取准确性。

本发明的目的通过以下的技术方案来实现:

一种基于bert并融合句群相似检索的答案抽取方法,包括:

A构建基于bert的答案抽取模型;

B基于生成的答案抽取模型,联合句群相似检索技术进行问题答案的抽取;具体包括:

从文档中利用片段相似检索技术将与待回答问题有浅层语义相关的句群片段找见,并进行相关度评分;

根据评分高低排序,获取满足特定阈值评分的句群片段作为候选句群片段;

将候选句群片段以及待回答问题输入基于bert的答案抽取模型,进行答案跨度预测;

答案起始和结束位置,依据原文句群片段内容,计算具体的答案结果。

与现有技术相比,本发明的一个或多个实施例可以具有如下优点:

通过将整篇文档碎片化为句群片段,再通过浅层语义匹配打分排序,获取与问题最相关的候选句群片段,基于这样的数据处理,再利用基于bert微调(Pre-trained Model+Fine Tuning模式)的答案抽取模型进行答案推理预测,这种两者融合的方式,能够有效排除不包含答案的片段,减少无答案片段时的噪音,可有效提升答案抽取效果。通过实际评测,在中文答案抽取任务上表现较好,优于单一模型解决方案,领域迁移,适合长文档、短文档的问题答案抽取。

训练数据的短缺是最大的挑战之一,预训练使用更小的数据集对预训练模型进行微调,与使用大量数据集进行的传统训练方法相比,已有很大的改进。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网数字出版技术股份有限公司;《中国学术期刊(光盘版)》电子杂志社有限公司,未经同方知网数字出版技术股份有限公司;《中国学术期刊(光盘版)》电子杂志社有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110361140.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top