[发明专利]一种基于多模态融合的视觉问答融合增强方法有效

申请号：	201910520138.7	申请日：	2019-06-17
公开（公告）号：	CN110377710B	公开（公告）日：	2022-04-01
发明（设计）人：	颜成钢;俞灵慧;孙垚棋;张继勇;张勇东	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06K9/62
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多模态融合视觉问答增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多模态融合的视觉问答融合增强方法，其特征在于包括以下步骤：

步骤1、利用GRU结构构建时序模型，获得问题的特征表示学习、利用从Faster R-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示，具体将句子中的每个单词都按照顺序时刻依次输入到GRU模型中，句子的最后一个单词的GRU输出表示整个句子；

步骤2、基于注意力模型Transformer进行多模态推理，同时引入注意力模型对图片-问题-答案这个三元组进行多模态融合，从而建立推理关系；

步骤3、由于多种不同的图像-问句-答案隐含关系被涵盖，且针对不同的隐含关系有不同的推理过程和结果输出，利用标签分布学习和KL散度损失函数和softmax回归方法来拟合真实答案分布情况；

所述的GRU中有两个门，一个是重置门r_t，另一个是更新门z_t，令句子q＝{x₁，x₂，...，x_n}，其中x_i代表了第i个单词，重置门和更新门的公式如下所示：

r_t＝σ(W^rx_t+U^rh_t-1)

z_t＝σ(W^Zx_t+U^zh_t-1)

然后计算候选隐含层h_t′：

h_t′＝tanh(Wx_t+r_tUh_t-1)

h_t′表示的是输入第t个单词之后得到的更新后的信息，r_t则能控制保留多少前t个单词的相关记忆，如果r_t＝0，那么h_t′就只有包含当前词x_t的信息；

更新门控制需要从前t-1个单词中遗忘的信息，输入第t个单词之后，能够得到前t个词中的所有过滤好的信息：

问句s的特征表示为v_q＝h_n{x₁，x₂，...，x_n}；

步骤2所述的注意力模型，其attention的定义如下：

其中，Q，K，V分别是query、key、value的简写，K，V是一一对应的，它们就像是key-value的关系，那么上式的意思就是通过Q这个query，通过与K内积，并softmax的方式，来得到Q与各个V的相似度，然后加权求和，得到一个向量；其中因子起到调节作用；

Multi-Head Attention是Google提出的新概念，是Attention机制的完善：

MultiHead(Q，K，V)＝Concat(head₁，...head_h)

将Q，K，V通过参数矩阵映射，然后再做Attention，将该过程重复做h次，并将结果拼接起来就行了；

将答案信息通过嵌入式表达之后，引入视觉问答任务；问题-图片对经过transformer模块生成的向量与answer embedding又进行了一次融合，最后得到了带有答案信息的特征和只有图片-问题信息的特征，这两部分进行结合之后，能够得到整个视觉任务的信息特征，再将这些信息送入带有线性变换和softmax模块的分类系统，从而最后需要的答案。

2.根据权利要求1所述的一种基于多模态融合的视觉问答融合增强方法，其特征在于步骤3具体实现如下：

在像视觉问答常用的数据集VQA和VQA-2.0中，每一对图像-问题都是由很多人使用多个答案进行标注的；每个图像-问题样本的答案可以被表示为一个与该样本对应的答案的概率分布向量其中y_i∈[0，1]表示候选答案中第i个问题在该样本的人工标注的答案中出现的频率；由于视觉问答模型的输出是每个答案的得分，一个直接的做法是使用基于边界的损失函数来最大化正确答案与其他错误答案之间的距离，代替传统的softmax+cross-entropy的损失方式，基于边界的损失函数为：

将基于负样本采样的边界损失学习问题转变为面向所有候选答案分布y的标签分布学习问题；对于图像-问题样本的每一个与之对应的候选答案a_i都计算出一个相关度得分s_att(q，I，a_i)；然后用softmax回归方法来拟合真实答案分布的情况：

最后使用KL散度损失函数来对错误的答案预测进行惩罚，KL距离是两个随机分布间距离的度量；记为D_KL(p||q)；它度量当真实分布为p时，假设分布q的无效性，其公式为：

当p＝q的时候，散度为0；

通过最小化如下损失函数的方式进行模型训练：

其中N是所有被用来训练的图像-问题对的数量；测试的时候，只需要将所有候选答案的特征表示输入模块，然后选择三元组相关度最高的答案s_att(q，I，a_i)最为最终预测的答案即可。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910520138.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种多情景对话切换方法及装置
下一篇：一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多模态融合的视觉问答融合增强方法有效

专利文献下载