[发明专利]融合事实文本的知识库问答方法有效
| 申请号: | 202011056492.8 | 申请日: | 2020-09-30 |
| 公开(公告)号: | CN112256847B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 余正涛;王广祥;郭军军;相艳;黄于欣;线岩团 | 申请(专利权)人: | 昆明理工大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F40/205;G06F40/295;G06F40/30;G06N3/0464;G06N3/0442;G06N3/08 |
| 代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
| 地址: | 650093 云*** | 国省代码: | 云南;53 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 融合 事实 文本 知识库 问答 方法 | ||
本发明涉及一种融合事实文本的知识库问答方法,属于自然语言处理领域。本发明分别对自然语言问题及候选答案三元组进行分析,把三元组中的实体、实体类型和关系转换为事实文本,并通过预训练语言模型BERT将自然语言问题与事实文本映射成低维语义空间中的数值向量,然后采用余弦相似度计算并排序,建立融合事实文本的知识库问答方法模型,该模型可学习自然语言问题与候选答案三元组之间的得分关系,从而用于在知识库中找到与自然语言问题语义最相近的答案,该问答方法取得了较好的效果。
技术领域
本发明涉及一种融合事实文本的知识库问答方法,属于自然语言处理领域。
背景技术
近年来,随着诸如Freebase、DBpedia和YAGO的大规模知识库快速发展,知识库问答受到越来越多研究者的关注。典型的知识库多采用“头实体-关系-尾实体”三元组为基本单元来组成图结构,每个三元组称为一个事实,比如(Zhang San,people.person.place_of_birth,Shang Hai)表示“张三出生于上海”。知识库中三元组数以千计,用户难以获得有价值的信息。知识库问答能够根据知识库中的事实直接给出自然语言问题答案,提供了一种直接访问知识库的方式。比如给定问题“Where is Zhang San's birthplace?”,其目标是通过查询知识库中的三元组(Zhang San,people.person.place_of_birth,Shang Hai)直接给出答案“Shang Hai”。
知识库问答的主要任务是根据自然语言问题的语义在结构化的数据上完成查询、匹配,完成该任务最有效的方式是将问题转化成机器能够理解和执行的查询语句,比如:SQL、SPARQL等;随着深度学习技术的飞速发展,基于表示学习的知识库问答方法受到越来越多的关注,其核心是通过表示学习计算问题和候选答案实体之间的相关性。这些方法已经取得了比较好的效果,但知识库问答远未得到解决,最主要的挑战是自然语言问题与知识库中的三元组存在语义鸿沟,具体表现为:三元组的关系在自然语言中有多种表达,比如:三元组中的关系“place_of_birth”可以用自然语言“hometown”、“born in”等来表示;三元组的实体名称存在歧义,比如:张三和大张都表示实体“Zhang San”。因此,如何改善语义鸿沟成为知识库问答任务的难点和关键技术之一。
发明内容
本发明提供了一种融合事实文本的知识库问答方法,可以很大程度的编码候选答案三元组的信息,也保留了自然语言问题的全部信息,最终得到的两个数值向量包含了完整的问题语义信息和更多的候选答案三元组信息,更加有利于匹配两者的相关度找到最终答案。
本发明的技术方案是:融合事实文本的知识库问答方法,所述方法包括:
Step1、主题实体识别;
Step2、候选答案检索:根据主题实体在知识库Freebase中检索候选答案;
Step3、事实文本生成:将每个候选答案转换成可进行文本表示的事实文本;
Step4、知识库问答模型构建:采用BERT将自然语言问题和候选答案表示成数值向量,计算向量间的相似度得分并选出得分最高的候选作为最终答案。
作为本发明的优选方案,所述步骤Step1中,采用基于双向长短记忆网络BiLSTM的模型来执行主题实体识别任务,使用预先训练好的Glove模型将单词映射成词向量并经过BiLSTM、全连接层以及Softmax得到该单词是否是主题实体单词的概率。
作为本发明的优选方案,所述步骤Step2根据识别出来的主题实体从知识库中查找满足约束条件的事实作为候选答案。
作为本发明的优选方案,所述约束条件为:如果知识库中三元组的头实体属于问题的主题实体,就将该三元组列为候选答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011056492.8/2.html,转载请声明来源钻瓜专利网。





