[发明专利]基于层次化特征关系图构建的图像描述方法有效
申请号: | 201811595091.2 | 申请日: | 2018-12-25 |
公开(公告)号: | CN109711464B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 胡海峰;王伟轩;于遨波;陈志鸿;朱蔚中 | 申请(专利权)人: | 中山大学 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/764;G06V10/80 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510260 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及计算机视觉识别领域,提出一种基于层次化特征关系图构建的图像描述方法,包括以下步骤:构建训练数据集;将图像输入区块检测模块中,输出区块视觉信息;将图像输入目标检测模块中,输出目标视觉信息;将图像输入文本检测模块中,输出文本视觉信息;将所述三种视觉信息分别输入描述生成器中,分别构建各类型视觉信息与训练图像坐标信息的关系图,并对所述三种视觉信息进行优化;对所述三种视觉信息进行筛选和融合,得到多模态特征;输入递归神经网络中提取特征信息,预测下一个描述单词至生成完整的描述句子。本发明通过对各类型视觉信息进行优化、筛选以及融合,实现对任意输入测试图像进行描述,能够有效提高图像描述的准确性。 | ||
搜索关键词: | 基于 层次 特征 关系 构建 图像 描述 方法 | ||
【主权项】:
1.基于层次化特征关系图构建的图像描述方法,其特征在于:包括以下步骤:S1:收集训练图像、训练图像的坐标信息以及描述训练图像的参考文本,构建训练数据集;S2:将训练图像输入区块检测模块中,输出区块视觉信息;S3:将训练图像输入目标检测模块中,输出目标视觉信息,并根据目标视觉信息包括的目标框坐标信息与训练数据集中的坐标信息比较,计算分类的损失函数L1,优化目标检测模块参数;S4:将训练图像输入文本检测模块中,输出文本视觉信息,并根据文本视觉信息包括的检测文本与训练数据集中的参考文本比较,计算分类的损失函数L2,优化文本检测模块参数;S5:将所述区块视觉信息、目标视觉信息和文本视觉信息分别输入描述生成器中,通过构建所述三种视觉信息分别与训练图像坐标信息的关系图,对所述三种视觉信息分别进行优化;S6:利用关注机制分别对优化后的区块视觉信息、目标视觉信息和文本视觉信息进行视觉信息筛选,再输入多元融合模块中进行特征融合,得到多模态特征;S7:将多模态特征和当前时刻的语义信息输入递归神经网络中提取特征信息,并预测下一个单词,并将所预测的结果和训练数据集中的信息比较,计算分类的损失函数L3,优化递归神经网络中的参数;S8:重复S2~S7,至损失函数L1,L2,L3收敛至某一指定值;S9:将待图像描述的图片输入区块检测模块、目标检测模块和文本检测模块中,分别获得区块视觉信息、目标视觉信息和文本视觉信息,输入描述生成器中通过构建所述三种视觉信息分别与输入图像的坐标信息之间的关系图对所述三种视觉信息进行优化,再利用关注机制对所述三种视觉信息进行视觉信息筛选,并输入到多元融合模块中进行特征融合,最后输入到递归神经网络预测下一个描述单词至生成完整的描述句子。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811595091.2/,转载请声明来源钻瓜专利网。