[发明专利]一种引入外部知识的视觉问答方法有效
| 申请号: | 202010436987.7 | 申请日: | 2020-05-21 |
| 公开(公告)号: | CN111611367B | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 王春辉;胡勇 | 申请(专利权)人: | 拾音智能科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06N3/0464 |
| 代理公司: | 北京中北知识产权代理有限公司 11253 | 代理人: | 卢业强 |
| 地址: | 710000 陕西省西安市航天*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 引入 外部 知识 视觉 问答 方法 | ||
本发明公开一种引入外部知识的视觉问答方法。所述方法包括:构造视觉图;构造事实知识图;利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;在问题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,以可能是答案的概率最大的事实知识为问题的答案。本发明通过在问题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,避免了冗余的噪声,提高了答案的准确率。
技术领域
本发明属于自然语言理解技术领域,具体涉及一种引入外部知识的视觉问答方法。
背景技术
视觉问答涉及计算机视觉和自然语言处理技术,即给定一张图片和一个与该图片相关的自然语言问题,计算机产生一个正确的回答。大多数现有的视觉问答模型主要关心理解视觉对象,其中的问题与简单的计数、颜色和其它视觉检测任务有关,只需要直接分析问题和图像就可以获得答案,因此不需要太多的逻辑推理或与外部知识的关联。但是如果问题涉及到常识知识,这些模型往往会得出错误答案,而人类在面对涉及常识的视觉问题时,会综合关联图像和外部知识来回答。因此,为了补足和人类的差距从而实现更通用的人工智能,将外部知识引入视觉问答中是必不可少的环节。
有学者提出一个基于外部事实知识的视觉问答数据集FVQA以用基于查询映射的方法QQMapping。FVQA包含图片、问题、对应的答案以及一个从WebChild、DBPedia和ConceptNet中抽取得到的事实知识库。QQMapping首先根据图像中的视觉概念查询知识库,抽取出有关联的事实组成一个与当前图像相关的知识库。然后用LSTM对问题进行分类,得到一个查询语句,根据查询语句得到一系列候选的事实。然后根据关键词得到问题和事实的匹配程度,选择最相关的事实。最后根据问题预测答案的来源,选择一个实体当做最后的问题。但是如果出现同义词或同形异义词,QQMapping的效果就会下降。为此,有人提出一种基于学习的方法用于解决同义词和同形异义词的问题。首先分别通过CNN和LSTM得到图像和问题的嵌入表示,然后通过多层感知机将这两种模态融合起来得到图像-问题的联合表示。通过另一个LSTM预测对应事实的关系类型,然后根据关系抽取出相应的事实,使用GloVe得到事实的嵌入,计算其与图像-问题联合表示的内积,选取内积最大的作为事实。最后根据答案的来源选择一个实体作为最终答案。通过神经网络的自我学习能力,能够克服同义词和同形异义词引发的歧义。
图神经网络是一种将深度学习扩展到图数据的模型,可以有效利用图数据的复杂的拓扑结构学习每个节点的表示,从而提高下游任务的准确度。根据图像的视觉概念和对应的关系类型将抽取到的事实组成一个知识图谱,其中每个节点是一个实体,每条边表示实体之间的关系。节点的初始特征表示为“图像-问题-实体”的嵌入向量的拼接。然后使用图卷积网络学习到每个节点的表示,有效地捕获了知识图谱的邻居信息和拓扑结构信息。学习到的每个节点的表示通过一个多层感知机,最后一层只包括一个神经元,输出当前节点作为答案的概率。从所有节点中选择概率最大的作为最终的答案。
上述方法存在的问题是:编码图像时都使用了全部的视觉信息,但没有根据问题的不同自适应地选择需要的信息,会引入与问题无关的噪声;将回答问题所需的视觉信息和事实知识直接拼接,没有根据问题进行动态融合。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种基引入外部知识的视觉问答方法。
为实现上述目的,本发明采用如下技术方案:
一种引入外部知识的视觉问答方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于拾音智能科技有限公司,未经拾音智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010436987.7/2.html,转载请声明来源钻瓜专利网。





