[发明专利]一种基于bert并融合句群检索的答案抽取方法有效
申请号: | 202110361140.1 | 申请日: | 2021-04-02 |
公开(公告)号: | CN113032541B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 程燕;朱江;张振海 | 申请(专利权)人: | 同方知网数字出版技术股份有限公司;《中国学术期刊(光盘版)》电子杂志社有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/126;G06F40/216 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 陈新胜 |
地址: | 100192 北京市海淀区西小口路66号中关村东升科技*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 融合 检索 答案 抽取 方法 | ||
1.一种基于bert并融合句群检索的答案抽取方法,其特征在于,所述方法包括:
A构建基于bert的答案抽取模型;
B基于生成的答案抽取模型,联合句群相似检索技术进行问题答案的抽取;具体包括:
从文档中利用片段相似检索技术将与待回答问题有浅层语义相关的句群片段找见,并进行相关度评分;
根据评分高低排序,获取满足特定阈值评分的句群片段作为候选句群片段;
将候选句群片段以及待回答问题输入基于bert的答案抽取模型,进行答案跨度预测;
答案起始和结束位置,依据原文句群片段内容,计算具体的答案结果;
所述A基于bert的答案抽取模型的构建具体包括:
数据预处理,对问题和文本片段处理,将句子转为字符级序列;将问题序列和文本序列相连接并分隔,对连接的序列做预处理,输入问题和文本短序列的长度大于规定的最大序列长度时,将文本片段以一定的步长分割为若干段并分别与问题连接;
将问题和文本同时进行编码;
问题编码将问题中的每个单词qi的embedding应用一个编码网络,获得通过attention层聚合这些隐变量到一个向量中;及获得
将问题编码与文本编码交互混合预测答案,进行训练调优;
有了片段P的表示和问题q的表示应用attention机制的想法,分别训练两个分类器,一个用来预测范围的开始位置,另一个用来预测结束位置;按公式:
计算预测答案,式中P(start)表示开始位置概率,表示结束位置概率;模型训练中需要按公式:
L=-∑logP(start)(astart)-∑logP(end)(aend)
计算最小化交叉熵损失,式中astart表示训练数据标注的答案开始位置概率,aend表示训练数据标注的答案结束位置概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网数字出版技术股份有限公司;《中国学术期刊(光盘版)》电子杂志社有限公司,未经同方知网数字出版技术股份有限公司;《中国学术期刊(光盘版)》电子杂志社有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110361140.1/1.html,转载请声明来源钻瓜专利网。