[发明专利]一种基于胶囊自-导协同注意力机制的视觉问答方法在审
申请号: | 202110778207.1 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113515615A | 公开(公告)日: | 2021-10-19 |
发明(设计)人: | 浦俊;韩亚洪 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06K9/62;G06N3/04;G06N3/08;G06N20/00;G06F16/33;G06F16/583 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 胶囊 协同 注意力 机制 视觉 问答 方法 | ||
本发明公开了一种基于胶囊自‑导协同注意力机制的视觉问答方法,从互联网上下载图像数据,针对每个图像提出问题并给出答案,以此形成图像,问答对,构造视觉问答数据集;对图像数据进行预处理,然后提取图像数据的深度卷积特征;对文本数据进行预处理,然后提取文本数据的深度特征;基于胶囊自‑导协同注意力机制学习图像和问题文本的联合表征;把学到的联合表征进行拆分再学习,以获得更为精简的联合表征,并通过该联合表征预测出合适的答案。本发明能够准确获取图像和文本之间的联合表征;在一定程度上减少了模型的参数量,使得模型更加容易训练,且不容易过拟合。
技术领域
本发明涉及问答系统、计算机视觉,尤其涉及一种基于胶囊自-导协同注意力机制的视觉问答方法。
背景技术
视觉问答任务通常会向计算机展示一些视觉信息(如图片或视频),并提出关于该视觉信息的问题让计算机回答。根据数据集和具体任务的不同,答案有很多种形式:一个词、一个短语、一个判断(是/否)、从提供的可能选项中选择或是一个填空。如今,随着5G、无人驾驶、AR/VR以及直播带货,短视频等领域的多点开花蓬勃发展,人们需要面对急速膨胀的视觉信息。一直以来,视觉问答都是计算机视觉和多媒体分析的热点。
与传统的文本问答相比,视觉问答方法的核心和难点是需要同时处理视觉数据和问题的文本数据。目前,主流的方法是采用协同注意力机制来对多种不同模态的特征进行融合。在仍然存在的问题中,其中之一就是为了追求更高的准确率和更强的性能,各模型的参数量开始剧增,造成了两大缺陷:第一,现有的模型越来越难以训练;第二,在比较小的数据集上,现有的模型容易过拟合。此外,由于深度学习模型的黑盒效应,导致视觉问答任务的可解释性往往难以给出。以上种种,极大限制了现有的视觉问答方法在更大范围内的推广和使用。
如何找到有效的方法从给定的视觉数据中获取信息、并结合给定的问题获取答案,是本发明亟待解决的问题。
发明内容
为了改善视觉问答任务现有的不足,本发明提出一种基于胶囊自-导协同注意力机制的视觉问答方法,基于胶囊自-导协同注意力机制实现了更紧凑更高效的视觉问答,在一定程度上缓解现有技术存在的模型参数量庞大的问题。
本发明的一种基于胶囊自-导协同注意力机制的视觉问答方法,该流程具体包括以下步骤:
步骤1,从互联网上下载图像数据,针对每个图像提出问题并给出答案,以此形成图像,问答对,构造视觉问答数据集;
步骤2,对图像数据进行预处理,然后由检测区域中的图像数据提取图像数据的平均池化卷积特征作为物体特征;该步骤具体包括:针对图像数据,对图像中能检测到的物体的概率设置置信度阈值,将输入图像特征集表示为m表示物体的数量,dx表示在X这个集合里每个特征的维度;
步骤3,对文本数据进行预处理,然后提取文本数据的深度特征,具体处理如下:
所述预处理具体包括:对文本数据进行去分隔词处理、词汇转换成小写、句子裁剪;
构成问题中的单词被送入一个300维的GloVe词嵌入,将词嵌入再送入含有dy个隐藏单元的单层LSTM网络,提取单层LSTM网络的最后一个隐状态的输出作为整个问题的深度特征;
步骤4,进行基于胶囊自-导协同注意力机制学习图像和问题文本的联合表征;该步骤具体包括以下处理:
构造两个组件即自注意力组件Self-Attention和引导注意力组件Guided-Attention;
给定一个输入图像集合特征多头注意力层捕捉成对的输入样本xi,xj之间的配对关系,然后计算出被关注的特征Z∈Rn×d;
接着,多头注意力层的输出特征被送入前馈神经网络,通过实现动态路由过程学习到联合表征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110778207.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种离子检测方法
- 下一篇:内容搜索方法、装置、设备和存储介质