[发明专利]一种基于注意力机制的图像描述方法、系统及装置有效
| 申请号: | 202110457256.5 | 申请日: | 2021-04-27 |
| 公开(公告)号: | CN113095431B | 公开(公告)日: | 2023-08-18 |
| 发明(设计)人: | 胡海峰;夏志武;吴永波 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/84;G06V10/82;G06N3/048;G06N3/084 |
| 代理公司: | 深圳市创富知识产权代理有限公司 44367 | 代理人: | 高冰 |
| 地址: | 510275 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 注意力 机制 图像 描述 方法 系统 装置 | ||
本发明公开了一种基于注意力机制的图像描述方法、系统及装置,该方法包括:基于编码器模块对图像特征进行处理,得到编码信息;基于解码器模块获取序列向量信息并对编码信息进行解码,得到单词概率分布;重复编码解码步骤直至达到预设次数,输出图像描述。该系统包括:编码器模块、解码器模块和循环模块。该装置包括存储器以及用于执行上述基于注意力机制的图像描述方法的处理器。通过使用本发明,能够充分挖掘出图像中对象之间隐藏的内在语义联系和空间位置关系,生成全面准确的图像描述。本发明作为一种基于注意力机制的图像描述方法、系统及装置,可广泛应用于图像描述生成检测。
技术领域
本发明涉及图像描述生成领域,尤其涉及一种基于注意力机制的图像描述方法、系统及装置。
背景技术
图像描述生成技术在人工智能领域是一项具有挑战性的任务,越来越受到人们的关注。图像描述生成技术的产生为计算机从图像中快速获取信息带来了新的发展和应用前景。图像描述生成技术与图像语义分析、图像标注和图像高级语义提取等技术紧密相关。图像描述生成技术是计算机自动为图像生成一个完整、通顺的描述语句。大数据背景下的图像描述生成技术在商业领域有着广泛的应用。如购物软件中用户输入关键字快速地搜索出符合要求的商品;用户在搜索引擎中进行的图片搜索;视频中多事物目标的识别、医学图像专业的自动语义标注以及自动驾驶中目标物体的识别、图像检索、智能盲人引导、人机交互等。但是目前常用的图像描述生成方法存在对图像隐含的语义信息挖掘不充分,对图像的特征利用不充分,生成的描述不够准确全面的问题。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于注意力机制的图像描述方法、系统及装置,深度挖掘图像中物体之间的语义关系,生成更灵活、更准确的文本描述。
本发明所采用的第一技术方案是:一种基于注意力机制的图像描述方法,包括以下步骤:
获取输入图像的图像特征X并对图像特征X进行线性变换,得到向量集Q、K1和V1;
对向量集K1和V1中分别插入语义关联向量Sk、Sv,得到向量集K2和V2;
将向量集Q、K2和V2输入自注意力模块S,得到特征信息S(X);
将特征表示S(X)经过前向传播和残差连接正则化,得到编码信息
获取前一时间步的序列向量信息Y并经过掩码自注意力模块处理得到问询向量Yq;
将编码信息经过线性变换得到向量集K2和V2;
将问询向量Yq、向量集K2和V2输入交叉注意力模块得到解码结果C并进一步残差连接和正则化更新解码结果C;
将C经过Sigmoid算子和前向传播,得到单词概率分布
以编码信息作为新的图像特征、单词概率分布作为新的序列向量表示并返回步骤S1直至循环次数达到四次,输出图像描述。
进一步,所述对图像特征X进行线性变换,得到向量集Q、K1和V1具体为:
基于预设大小的权重矩阵Wq、Wk和Wv与图像特征X进行点成,得到对应表示特征的向量集Q、K1和V1。
进一步,所述自注意力模块S由基本的缩放矩阵点积操作组成,所述将向量集Q、K2和V2输入自注意力模块S,得到特征信息S(X)这一步骤,公式表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110457256.5/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





