[发明专利]一种基于多模态融合的视觉问答融合增强方法有效
| 申请号: | 201910520138.7 | 申请日: | 2019-06-17 |
| 公开(公告)号: | CN110377710B | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 颜成钢;俞灵慧;孙垚棋;张继勇;张勇东 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06K9/62 |
| 代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多模态 融合 视觉 问答 增强 方法 | ||
本发明公开了一种基于多模态融合的视觉问答融合增强方法。本发明步骤如下:1、利用GRU结构构建时序模型,获得问题的特征表示学习、利用从Faster R‑CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示;2、基于注意力模型Transformer进行多模态推理,引入注意力模型对图片‑问题‑答案这个三元组进行多模态融合,建立推理关系;3、针对不同的隐含关系有不同的推理过程和结果输出,再根据这些结果输出来进行标签分布回归学习,来确定答案。本发明基于特定的图片和问题得到答案直接应用于服务于盲人的应用中,能够帮助盲人或者视觉障碍者更好地感知周围环境,也应用于图片检索系统,提高图片检索的准确性和多样性。
技术领域
本发明属于计算机视觉、自然语言技术领域,特别地,本发明涉及一种基于多模态融合的视觉问答融合增强方法。
背景技术
视觉问答(Visual QuestionAnswer,简称VQA)是一个结合计算机视觉领域和计算机自然语言领域的一个任务,其需要解决的就是对特定的一张图片提出一个特定的问题,推理出其答案。VQA有许多潜在的应用场景,最直接的就是那些帮助盲人和视觉受损用户的应用,可以为盲人或者视觉受损用户理解周围环境,通过交互式的程序,能够感知互联网以及现实生活中的场景;另一个明显的应用是将VQA集成到图像检索系统中,通过自然语言来影响图像的检索,对社交或者商务产生巨大影响。
VQAtask主要解决下面三个问题:
1.对图像和问题的细粒度特征表示;
2.多模态特征融合,能够捕捉多模态特征之间的复杂交互关系;
3.考虑同一个问题的多个答案之间的语义关联。
基于深度学习的相关技术已经在计算机视觉领域取得了相当大的成功,比如图像分割,物体检测,图像分类等任务,从一开始的深度卷积神经网络,到AlexNet,之后又有VGGNet,GoogLenet等网络结构,尤其是基于残差的深度卷积神经网络ResNet,这些网络的发展对图像的细粒度特征表示这一任务打下了坚实的基础。对于问题的细粒度特征表示这一任务,传统的方法主要是先提取文本特征,再利用如支持向量机等算法进行学习,随着深度学习的发展,基于时序的递归神经网络以及基于长短期记忆的神经网络能够在句子语义的建模和理解上有很好的效果,很大程度上改善了有关自然语言的任务,比如机器翻译等的性能。
目前针对第二个任务,多模态特征融合,主要可以分为两类:
第一类是直接将图片特征和问题特征融合起来,比如点乘,拼接,双线性池化等;
第二类是基于注意力机制的特征融合,先把图片特征和问题特征融合得到注意力分值,再对图片特征进行注意力分配,比如最早期提出的双线性模型,MLB,MUTAN,MFH,MFB等方法。
缺点:这些方法几乎都只考虑了问题和图像之间的关系,但是忽略了图像-问题-答案这个三元组之间的隐藏关系,我们可以这样想象,当你知道具体答案的时候,你也可能有能力去推测问题,因此答案的作用在推理的过程中可能扮演了一个很重要的角色但是这些方法却忽略了这个重要的信息,当然也有工作考虑到了这一关系,尝试通过将图像特征表示、问题特征表示、答案特征表示进行简单的拼接,或者把图像和问题进行融合之后再映射到答案特征上面去,但是这两种方法很难将三元组之间的关系全面得表示出来。
综合上述技术,不难看出目前视觉问答主要还是基于图像特征和问题特征的融合,而答案特征并没有起到应该有的作用,答案特征有时甚至能够使得任务准确性有很大提升,且图像-问题-答案之间的复杂关系无法全面地被表达出来,且存在如下缺点:
1.没有有效利用答案信息,无法发挥答案信息的巨大作用;
2.在问题特征和图片特征进行多模态融合的时候,无法简洁有效地利用注意力机制来获取最值得关注地区域。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910520138.7/2.html,转载请声明来源钻瓜专利网。





