[发明专利]用于视觉问答的系统和方法有效
申请号: | 201610952620.4 | 申请日: | 2016-11-02 |
公开(公告)号: | CN106649542B | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 陈侃;王江;徐伟 | 申请(专利权)人: | 百度(美国)有限责任公司 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/9032;G06K9/62 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;王艳春 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本文描述的是用于生成并且使用用于视觉问答任务(VQA)的基于关注的深度学习架构以对图像(静止图像或视频图像)相关问题自动生成答案的系统和方法。为了生成正确的答案,模型的关注根据问题集中于图像中的相关区域上是重要的,因为不同问题可能就不同图像区域的属性提问。在实施方式中,此类经问题引导的关注利用可配置的卷积神经网络(ABC‑CNN)学习。ABC‑CNN模型的实施方式通过将图像特征图与通过问题语义确定的可配置的卷积内核卷积来确定关注图。在实施方式中,经问题引导的关注图集中于问题相关的区域上,并且过滤掉不相关区域中的噪声。 | ||
搜索关键词: | 用于 视觉 问答 系统 方法 | ||
【主权项】:
一种改进对问题输入生成的答案的准确性的计算机实施的方法,其中,所述问题输入与图像输入相关,所述方法包括:接收所述图像输入;接收与所述图像输入相关的所述问题输入;将所述问题输入和所述图像输入输入到基于关注的可配置卷积神经网络框架中以生成答案,所述基于关注的可配置卷积神经网络框架包括:图像特征图提取组件,包括从所述图像输入提取图像特征图的卷积神经网络;语义问题嵌入组件,从所述问题输入获得问题嵌入;经问题引导的关注图生成组件,接收所述图像特征图和所述问题嵌入,并且获得集中于所述问题输入所询问的区域或多个区域的经问题引导的关注图;以及答案生成组件,通过使用所述经问题引导的关注图加权所述图像特征图,获得经关注加权的图像特征图,并且基于所述图像特征图、所述问题嵌入和所述经关注加权的图像特征图的融合来生成答案。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度(美国)有限责任公司,未经百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610952620.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种动画播放、生成方法及装置
- 下一篇:记录阅读进度的方法、装置及终端