[发明专利]一种视觉问答的方法、装置及介质有效
申请号: | 202111344175.0 | 申请日: | 2021-11-15 |
公开(公告)号: | CN113780486B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 王润民;徐尉翔;朱桂林;刘莹莹;刘明昊;朱祯琳;朱姿諭;丁亚军;戴颖龙;代建华 | 申请(专利权)人: | 湖南师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06V10/80;G06V10/774 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张艺 |
地址: | 410006 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视觉 问答 方法 装置 介质 | ||
本发明公开了一种视觉问答方法、装置及介质,应用于深度学习领域,获取目标文字和目标图像,并将目标文字与目标图像分别转换为文字数据和图像数据;将文字数据以及图像数据分别输入至基于Transformer的模型中提取文字特征和图像特征,进而将文字特征和图像特征输入至Transformer的模型得到融合特征,最后将融合特征输入至分类器得到视觉问答任务的答案。在特征提取方面完全采用Transformer模型,加快提取速度,节省计算成本,减少运算参数量,将文字特征和图像特征进行聚合,使来自图像特征与文本特征的信息达到更好的交互,提高特征表征能力,提升特征提取运行速率,提高视觉问答的答案准确率。
技术领域
本发明涉及深度学习领域,特别是涉及一种视觉问答的方法、装置及介质。
背景技术
随着人工智能的快速发展,通常情况下赋予机器学习输出人们想要的结果。然而在深度学习领域中的单模态方法的计算机视觉(Computer Vision,CV)和自然语言处理(Natural language processing,NLP)进入瓶颈状态,多模态深度学习逐渐成为研究热点,以CV和NLP结合的视觉问答(Visual Question Answering,VQA)为主,其VQA是一张图片和有关图片的自然语言问题作为输入,赋予机器理解和融合图像,语言模态所包含的信息将其输出答案。
现有的VQA模型其特征提取方面包括三个模块,文字特征提取、图像特征提取和特征融合模块,对于文字特征提取模块,常用的有循环神经网络(Recurrent NeuralNetwork,RNN)、长短期记忆网络(Long Short Term Memory networks,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)等,对于图像特征提取模块常用的有卷积神经网络(Convolutional Neural Networks,CNN)、多层感知器(Multi-layer Perceptron,MLP)等,不同特征提取器的提取特征准确率也不同,有高有低,进行特征融合时来自图像特征和文字特征的信息没有达到更好的交互,极大降低了特征表征能力和特征提取运行速率,并导致了视觉问答的结果准确率降低。
因此,如何提高特征表征能力是本领域技术人员亟需要解决的。
发明内容
本发明的目的是提供一种视觉问答的方法、装置及介质。提高特征表征能力,提升特征提取运行速率,提高视觉问答的答案准确率。
为解决上述技术问题,本发明提供一种视觉问答方法,该方法包括:
获取视觉问答任务对应的目标文字和目标图像,并将目标文字与目标图像分别转换为文字数据和图像数据;
将文字数据以及图像数据分别输入至基于Transformer的模型中以提取文字数据的文字特征和图像数据的图像特征;
将文字特征和图像特征拼接并输入至Transformer的模型得到融合特征;
将融合特征输入至分类器得到视觉问答任务的答案。
优选地,将文字数据输入至基于Transformer的模型中以提取文字数据的文字特征,包括:
将文字数据输入至BERT模型中以提取文字数据的文字特征,其中BERT模型基于Transformer的模型得到。
优选地,将图像数据输入至基于Transformer的模型中以提取图像数据的图像特征,包括:
将图像数据输入至ViT模型中以提取图像数据的图像特征,其中ViT模型基于Transformer的模型得到。
优选地,在将目标文字与目标图像分别转换为文字数据和图像数据之后,在将文字数据以及图像数据分别输入至基于Transformer的模型中以提取文字数据的文字特征和图像数据的图像特征之前,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南师范大学,未经湖南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111344175.0/2.html,转载请声明来源钻瓜专利网。