[发明专利]一种基于分工决策的视觉问答模型的视觉问答方法及系统在审
申请号: | 202111483361.2 | 申请日: | 2021-12-07 |
公开(公告)号: | CN114283292A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 丰江帆;刘睿国;龙仁华;易成杰 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/74;G06V10/80;G06V10/774;G06K9/62;G06V30/148;G06F40/30 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 卢胜斌 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分工 决策 视觉 问答 模型 方法 系统 | ||
本发明属于图像问答领域,具体涉及一种基于分工决策的视觉问答模型的视觉问答方法及系统,该方法包括:获取视觉图像和待回答的问题,将视觉图像和待回答的问题输入到LRBNet模型中,得到问答结果;LRBNet模型包括视觉理解模块、文本理解模块以及交换模块;所述视觉理解模块用于得到视觉特征图,所述文本理解模块用于得到文本特征图,所述交换模块用于对视觉特征图和文本特征图进行数据交互,根据交互数据更新节点;视觉空间特征图和文本语义信息进行关联和更新,得到最终的问答结果;本发明将文本语义信息和视觉空间信息分离处理,只在最后将处理的结果融合,降低了其他VQA模型因跨模态融合而提高的推理难度。
技术领域
本发明属于图像问答领域,具体涉及一种基于分工决策的视觉问答模型的视觉问答方法及系统。
背景技术
深度学习算法在视觉相关任务和语言相关任务方面都取得了巨大的成功,而视觉问答是测试视觉和语言跨模态理解的任务。在最常见的视觉问答形式中,计算机会呈现一幅图像以及一个关于图像的文本问题,视觉问答算法需要根据图像给出问题的答案。
目前大多数图像问答模型(VQA)使用循环神经网络(RNNS)和长短时记忆网络(LSTM)等神经网络学习问题的编码表示。为了给图像编码,早期的VQA模型采用Resnet或VGG在ImageNet上预训练的神经网络提取图像的视觉信息。为了得到图像中不同区域的特征,并减少无效区域对于答案预测的影响,Teney等人提出了一种BUTD模型,使用Faster R-CNN检测图像中的目标,得到相关区域的特征,并根据问题编码计算每个区域的注意权重来预测答案。Lu等人提出了分层协同注意力网络,该模型不仅实现了问题引导的视觉注意,也实现了视觉引导的问题注意力。Pan Lu等人构建了Relation-VQA数据集,直接挖掘VQA特定的关系,为模型提供额为的语义信息。以上的VQA系统大致可以分为四个模块:问题编码模块,图像编码模块,跨模态融合模块和问题预测模块。问题编码模块通常使用RNN,LSTM等模型将问题嵌入到向量中;图像编码模块首先使用Faster R-CNN模型提取图像特征,然后将问题编码与图像特征相加或者连接进行联合编码和关系建模学习文本和图像之间的关系,得到联合特征。跨模态融合模块将问题编码和联合特征进行融合,最后输入到问题预测模块进行答案预测。
以上现有技术均只是注重于图像与文本的跨模态融合,虽涉及跨模态的转换,但没有将图像的高级语义信息与问题文本的语义信息进行联合编码,使得模型因跨模态融合而提高了推理的难度。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于分工决策的视觉问答模型的视觉问答系统,该系统包括:特征获取模块、分工决策模块以及答案输出模块;
所述特征获取模块用于获取图像的视觉特征和问题的文本特征,并输入到分工决策模块中;
所述分工决策模块包括预处理模块、视觉理解模块、文本理解模块、交换模块以及答案预测模块;
所述预处理模块用于将问题文本转化为视觉特征,并提取图像的局部视觉特征和局部文本信息,将问题文本转化的视觉特征和图像的局部视觉特征输入到视觉理解模块,将局部文本信息输入到文本理解模块;
所述视觉理解模块用于处理来自预处理模块的输出,经过筛选、图构建和空间关系建模,得到视觉特征图并输入到交换模块;
所述文本理解模块用于处理文本信息,经过筛选、计数和语义关系建模,将得到的文本特征图输入到交换模块,将计数结果的one-hot向量输入到问题预测模块;文本信息包括问题文本和来自数据预处理模块的图像的局部文本信息;
所述交换模块用于在视觉理解模块和文本理解模块之间进行数据交互,接收来自视觉理解模块的视觉特征图和文本理解模块的文本特征图,通过数据交互,对视觉特征图和文本特征图进行一轮或多轮迭代更新,并将最后一轮迭代更新的视觉特征图和文本特征图分别反馈给视觉理解模块和文本理解模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111483361.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种油气勘探用钻井平台作业设备
- 下一篇:一种流量工程方法及系统