[发明专利]一种视觉问题回答的实现方法、装置、设备及存储介质在审
申请号: | 202111402921.7 | 申请日: | 2021-11-24 |
公开(公告)号: | CN114155422A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 李旭;李昊;孙明明;李平 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V20/00 | 分类号: | G06V20/00;G06K9/62;G06N3/04;G06N3/08;G06F40/284;G06V10/764;G06V10/80;G06V10/82 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 项京;马敬 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视觉 问题 回答 实现 方法 装置 设备 存储 介质 | ||
1.一种视觉问题回答的实现方法,包括:
获取指定的目标图片及针对该目标图片的目标问题;
将所述目标问题转换为问题特征;
对目标图片进行物体特征提取和关系特征提取,分别得到物体特征和关系特征;
将所述物体特征、关系特征以及各个目标物体的属性特征进行融合,得到目标图片的综合特征;
基于所述问题特征和所述目标图片的综合特征进行答案预测,得到目标问题的答案。
2.根据权利要求1所述的方法,其中,
所述对目标图片进行物体特征提取和关系特征提取,分别得到物体特征和关系特征的步骤,包括:
对目标图片进行特征识别,基于识别结果,生成包含目标物体以及目标关联关系的有向图,作为场景图;
基于所述场景图,分别提取出物体特征和关系特征。
3.根据权利要求2所述的方法,其中,
所述基于所述场景图,分别提取出物体特征和关系特征的步骤,包括:
将场景图转换为物体图和关系图;其中,物体图为:以各个目标物体为节点、各个目标关联关系为边的有向图;关系图为:以各个目标关联关系为节点、各个目标物体为边的有向图;
基于所述物体图提取物体特征,以及基于所述关系图提取关系特征。
4.根据权利要求2所述的方法,其中,
所述将所述物体特征、关系特征以及各个目标物体的属性特征进行融合,得到目标图片的综合特征的步骤,包括:
将所述物体特征与各个目标物体的属性特征进行融合,得到物体融合特征;以及将所述关系特征与各个关系的原始特征进行融合,得到关系融合特征;
将物体融合特征与关系融合特征进行融合,得到目标图片的综合特征。
5.根据权利要求2所述的方法,其中,
所述基于所述场景图,分别提取出物体特征和关系特征的步骤,包括:
将所述场景图输入预设的双塔GGNN编码器;所述双塔GGNN编码器包括:场景图转换模块、第一GGNN网络和第二GGNN网络、第一融合模块、第二融合模块和第三融合模块;
由所述场景图转换模块,将输入的场景图转换为物体图和关系图,分别输入至所述第一GGNN网络和第二GGNN网络;
由所述第一GGNN网络对物体图进行特征提取,得到物体特征,输出至第一融合模块;由所述第二GGNN网络对关系图进行特征提取,得到关系特征,输出至第二融合模块;
所述将所述物体特征、关系特征以及各个目标物体的属性特征进行融合,得到目标图片的综合特征的步骤,包括:
由所述第一融合模块,将第一GGNN网络输出的物体特征与各个目标物体的属性特征进行融合,得到物体融合特征输出至第三融合模块;由所述第二融合模块,将第二GGNN网络输出的关系特征与各个关系的原始特征进行融合,得到关系融合特征输出至第三融合模块;
由第三融合模块,将物体融合特征与关系融合特征进行融合,得到目标图片的综合特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111402921.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:轧机窜辊装置
- 下一篇:一种便于安装的防破坏智能锁