[发明专利]基于图片的问答处理方法、装置、可读介质及电子设备有效
申请号: | 202110548159.7 | 申请日: | 2021-05-19 |
公开(公告)号: | CN113761153B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 彭博 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06V30/18;G06V30/19;G06N20/00 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 王鹏健 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图片 问答 处理 方法 装置 可读 介质 电子设备 | ||
本申请的实施例提供了一种基于图片的问答处理方法、装置、可读介质及电子设备。该基于图片的问答处理方法包括:获取目标图片以及所述目标图片对应的问题语句;对所述目标图片进行特征提取,得到所述目标图片的第一图像特征,并对所述问题语句进行特征提取,得到所述问题语句的第一文本特征;基于所述第一文本特征的注意力机制,生成所述第一文本特征对应的第二文本特征,并基于所述第二文本特征的注意力机制,生成所述第一图像特征对应的第二图像特征;将所述第二文本特征和所述第二图像特征进行特征合并,得到联合特征,并根据所述联合特征,生成所述问题语句的答案。本申请实施例的技术方案能够提高图片问答的准确率。
技术领域
本申请涉及信息处理技术领域,具体而言,涉及一种基于图片的问答处理方法、装置、可读介质及电子设备。
背景技术
视觉问答(Visual Question Answering,VQA)指的是设计一个模型,在给定一张图片的情况下,该模型利用注意力机制可以自动回答和图片内容相关的问题。
然而,相关视觉问答技术中注意力机制完全由模型自己学习,缺少适当的引导,无监督的注意力机制受限于数据集偏见,模型关注的区域和人关注的区域差异较大,即关注到错误的图片区域,关注错误会导致模型的泛化能力较差,可解释性较差,进而导致问答准确率低。
发明内容
本申请的实施例提供了一种基于图片的问答处理方法、装置、可读介质及电子设备,进而至少在一定程度上能够提高图片问答的准确率。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种基于图片的问答处理方法,包括:获取目标图片以及所述目标图片对应的问题语句;对所述目标图片进行特征提取,得到所述目标图片的第一图像特征,并对所述问题语句进行特征提取,得到所述问题语句的第一文本特征;基于所述第一文本特征的注意力机制,生成所述第一文本特征对应的第二文本特征,并基于所述第二文本特征的注意力机制,生成所述第一图像特征对应的第二图像特征;将所述第二文本特征和所述第二图像特征进行特征合并,得到联合特征,并根据所述联合特征,生成所述问题语句的答案。
根据本申请实施例的一个方面,提供了一种基于图片的问答处理装置,包括:获取单元,配置为获取目标图片以及所述目标图片对应的问题语句;提取单元,配置为对所述目标图片进行特征提取,得到所述目标图片的第一图像特征,并对所述问题语句进行特征提取,得到所述问题语句的第一文本特征;生成单元,配置为基于所述第一文本特征的注意力机制,生成所述第一文本特征对应的第二文本特征,并基于所述第二文本特征的注意力机制,生成所述第一图像特征对应的第二图像特征;合并单元,配置为将所述第二文本特征和所述第二图像特征进行特征合并,得到联合特征,并根据所述联合特征,生成所述问题语句的答案。
在本申请的一些实施例中,基于前述方案,所述生成单元包括:第一线性变换子单元,配置为利用多个分配权重分别对所述第一文本特征进行线性变换,得到多个第一特征矩阵,其中,一个第一特征矩阵对应于一个所述分配权重;第一生成子单元,配置为基于各个第一特征矩阵的注意力机制,生成所述各个第一特征矩阵对应的第二特征矩阵,以得到多个第二特征矩阵;第一拼接子单元,配置为将所述多个第二特征矩阵进行拼接,得到拼接后的特征矩阵,并将所述拼接后的特征矩阵映射为与所述第一文本特征相同的维度,得到所述第一文本特征对应的第二文本特征。
在本申请的一些实施例中,基于前述方案,所述第一生成子单元配置为:对所述各个第一特征矩阵与所述各个第一特征矩阵的转置矩阵进行相似度计算,得到所述各个第一特征矩阵对应所述转置矩阵的注意力权重因子;将所述注意力权重因子进行归一化处理,得到对应的注意力权重;利用所述注意力权重对所述各个第一特征矩阵中包含的特征点进行加权求和计算,得到所述各个第一特征矩阵对应的第二特征矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110548159.7/2.html,转载请声明来源钻瓜专利网。