[发明专利]图像描述生成方法及装置、电子设备、可读存储介质在审
| 申请号: | 202210282638.3 | 申请日: | 2022-03-22 |
| 公开(公告)号: | CN114663650A | 公开(公告)日: | 2022-06-24 |
| 发明(设计)人: | 舒畅;陈又新 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G06V10/25 | 分类号: | G06V10/25;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06F40/284 |
| 代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 梁国平 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 图像 描述 生成 方法 装置 电子设备 可读 存储 介质 | ||
本发明涉及人工智能技术,提供了一种图像描述生成方法及装置、电子设备、可读存储介质,方法包括:将获取到的目标图像输入预训练的图像描述生成模型,以使得图像描述生成模型针对目标图像逐个确定待生成的图像描述语句中的首个描述词汇和非首个描述词汇,生成图像描述语句。本发明实施例中,通过预构建外部知识库以优化先前文本对于当前状态文本生成的指导效果以及图像细节对于图像描述生成的影响,能够准确地获取到每个候选词汇的第二生成预测概率;通过结合外部知识库的相关信息以及先前生成文本共同进行当前时刻生成词的预测,使生成的描述词汇更具有逻辑性同时包含历史图像描述信息,能够提高生成目标图像的图像描述语句的整体精确度。
技术领域
本发明实施例涉及但不限于图像处理技术领域,尤其涉及一种图像描述生成方法、图像描述生成装置、电子设备及计算机可读存储介质。
背景技术
在自然语言处理(Natural Language Processing,NLP)领域和计算机视觉(Computer Vision,CV)领域中,图像描述生成(Image Caption)作为结合CV领域和NLP领域的综合研究方向,已取得很多进展以及应用。图像描述生成问题的解决方法可以基于传统的编码-解码(Encoder-Decoder)模型解决,但随着应用场景的不断演进,该方式已逐渐无法满足应用需求,因此当前引入一些新的机制添加到上述解决方式中以实现应用场景拓展,例如,通过引入目标检测模型获取图像中的更多局部信息以及区域信息,可以让生成的图像描述包含更多图像细节,弥补Encoder-Decoder模型过多关注局部明显特征的缺点,但是引入的目标检测模型只关注于当前图像的区域特征,并未考虑到Encoder-Decoder模型的整体图像描述影响,因此最终生成的图像描述文本的准确度不高。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种图像描述生成方法、图像描述生成装置、电子设备及计算机可读存储介质,能够提高生成目标图像的图像描述语句的精确度。
第一方面,本发明实施例提供了一种图像描述生成方法,包括:
将获取到的目标图像输入预训练的图像描述生成模型,以使得所述图像描述生成模型针对所述目标图像逐个确定待生成的图像描述语句中的每个描述词汇,生成所述图像描述语句;其中,所述图像描述语句包括首个描述词汇和非首个描述词汇;
基于所述目标图像的图像特征确定所述首个描述词汇;
确定与当前待确定的非首个描述词汇对应的多个候选词汇,确定每个所述候选词汇的第一生成预测概率和第二生成预测概率,根据每个所述候选词汇的第一生成预测概率和第二生成预测概率,从所述多个候选词汇中确定所述非首个描述词汇;其中,
所述第一生成预测概率基于所述候选词汇与当前已生成语句的第一相关程度确定,所述当前已生成语句根据已确定的所有描述词汇生成;
所述第二生成预测概率基于所述候选词汇与预构建的外部知识库中的各个键值对的第二相关程度确定,所述键值对基于第一键值对和第二键值对确定,所述第一键值对用于表征历史图像特征与历史图像描述语句之间的对应关系,所述第二键值对用于表征区域图像特征与图像描述类别词汇之间的对应关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210282638.3/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





