[发明专利]一种面向机器阅读理解的答案推荐方法有效
| 申请号: | 202010775911.7 | 申请日: | 2020-08-05 |
| 公开(公告)号: | CN111782961B | 公开(公告)日: | 2022-04-22 |
| 发明(设计)人: | 赵翔;霍立军;徐浩;谭真;葛斌;肖卫东;黄魁华;李硕豪 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
| 主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/33;G06F40/126;G06F40/289;G06F40/30;G06N3/04;G06N5/04 |
| 代理公司: | 长沙大珂知识产权代理事务所(普通合伙) 43236 | 代理人: | 伍志祥 |
| 地址: | 410003 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 机器 阅读 理解 答案 推荐 方法 | ||
本发明公开了一种面向机器阅读理解的答案推荐方法,包括以下步骤:接受问题q和支持文档集T′;进行句子分割和语义编码,包括文本预处理、词编码和句子编码;根据编码的语义进行推断以构建多跳推理链,包括选择节点和建立跳边;通过挖掘多跳推理链的信息以对候选集进行排序,包括推理链信息的集成和答案概率分布的计算;根据答案概率分布结果,从候选集中预测答案。本发明方法创新性的为机器阅读理解使用了基于句子的推理,在这个过程中,构造了多个逻辑链来连接与问题相关的句子;引入了句子级联,以处理基于上下文的有效共指的潜在问题。最后在流行的多跳机器阅读数据集上获得了具有竞争力的准确性结果。
技术领域
本发明属于人工智能中的自然语言处理技术领域,涉及机器自动阅读理解方法,具体涉及一种面向机器阅读理解的答案推荐方法。
背景技术
机器阅读理解(MRC)是自然语言处理(NLP)领域的一个重要任务,其旨在让机器根据给定的问题和文章,抽取相关的信息和知识,从而得到答案。相对于自然语言处理中的命名实体识别(NER),关系抽取等基础任务,MRC是一个更复杂,更高层的任务,其对语义的理解要求更高,抽取的文本信息更多。
近年来,为了机器阅读理解的深入发展,很多数据集被开发出来用于去验证机器阅读理解模型的效果,例如斯坦福大学提出的squad数据集。大多现有的数据集都是针对单文档阅读理解任务,即每个问题对应于一篇文章,解决问题需要的信息集中于一篇文章,不存在文章与文章之间的信息线索跳动。然而,最近一些新的数据集聚焦于多跳阅读理解任务,即一个问题对应于多篇文章的情况,比如WikiHop和MedHop()。多文档阅读理解任务要求阅读理解模型依据问题线索信息在多篇文章之间进行合理跳跃,找到足够的有用知识,最终推理得出答案。
多文档阅读理解相较于单文档阅读理解任务更具有挑战性,主要表现在三个方面。首先,对于每个问题,多文档阅读理解任务都提供了大量的支持文档,但只有一部分文档包含解决问题的信息,其余为干扰文档。大部分现有的阅读理解模型难以处理如此规模的文档,并且不具备抗干扰能力。其次,解决问题的信息分布在多篇文档之中,需要模型的有效推理,形成一个可靠的信息链。然而,大部分模型的推理能力较差,甚至不具备推理能力。最后,推理形成的信息链可能存在多条,需要被二次排序筛选,这给模型的带来了很大的不确定性。
发明内容
有鉴于此,本发明的目的在于提出一种面向机器阅读理解的答案推荐方法,所述方法提出了基于句子推理的递进式阅读理解模型,首先,从问题出发,找到问题中的主要实体,并在支持文档中找到包含该实体的句子,完成推理链初始构建;然后,设计了一个句子选择器用于句子与句子之间的推断,完成推理链的构建;对于已有的推理链,设计一个答案预测器令其使用推理链来找到答案。一个问题可能会存在多个可能的推理链,因此本发明重复这两个模块,对每个问题构建多条推理链。
基于上述目的,一种面向机器阅读理解的答案推荐方法,包括以下步骤:
步骤1,接受问题q和支持文档集T′,问题q以元组(Ie,r,?)的形式提供,其中Ie是左实体,?表示未知右实体,r表示Ie与未知右实体也就是答案之间的关系;
步骤2,进行句子分割和语义编码,包括文本预处理、词编码和句子编码;
步骤3,根据编码的语义进行推断以构建多跳推理链,包括选择节点和建立跳边;
步骤4,通过挖掘多跳推理链的信息以对候选集进行排序,包括推理链信息的集成和答案概率分布的计算;
步骤5,根据答案概率分布结果,从候选集中预测未知右实体即答案。
具体地,步骤2中所述的预处理包括:使用TF-IDF算法来计算问题和每个支持文档之间的余弦相似度并对其进行排名,截取前N个支持文档以获得新的支持文档集
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010775911.7/2.html,转载请声明来源钻瓜专利网。





