[发明专利]图像识别方法、装置及存储介质有效
申请号: | 201710814187.2 | 申请日: | 2017-09-11 |
公开(公告)号: | CN108304846B | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 姜文浩;马林;刘威 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/48;G06K9/62;G06N3/04 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 刘映东 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 识别 方法 装置 存储 介质 | ||
本发明公开了一种图像识别方法、装置及存储介质,属于机器学习领域。所述方法包括:通过指定编码器对待进行识别的目标图像进行特征提取,得到特征向量和第一标注向量集合;对该特征向量进行初始化处理,得到第一初始输入数据;基于该第一标注向量集合,通过第一指定引导网络模型生成第一引导信息,该第一指定引导网络模型是通过样本图像训练得到;基于该第一引导信息、该第一标注向量集合和该第一初始输入数据,通过指定解码器确定该目标图像的描述语句。本发明在编码器和解码器之间增加了预先通过样本图像训练得到的引导网络模型,因此通过该引导网络模型生成的引导信息较为准确,能够对编码过程进行准确引导,提高了生成描述语句的质量。
技术领域
本发明涉及机器学习领域,特别涉及一种图像识别方法、装置及存储介质。
背景技术
随着科技的发展,以及人们对便捷的人机交互方式的需求,机器学习在图像识别领域得到了广泛应用。例如,在早期的儿童教育、图像检索和盲人导航等场景中,人们通常希望机器能够自动对图像进行识别,得到能够准确描述图像内容的描述语句,即将图像翻译成自然语言,以便通过自然语言快速理解图像或者对图像进行分类。
目前,图像识别的系统框架通常包括编码器(Encoder)和解码器(Decoder),基于该系统框架,相关技术中提出了一种图像识别方法,包括:先通过编码器对图像进行特征提取,得到特征向量和标注向量(Annotation Vectors)集合,其中,特征向量是对图像进行全局特征提取得到,标注向量集合是对图像进行局部特征提取得到,然后对特征向量进行初始化处理,得到初始输入数据,该初始输入数据可以包括初始的隐含状态(Hidden State)信息和初始的记忆单元(Memory Cell)状态信息,之后从图像中提取人为设计的特定信息作为引导信息,并基于该引导信息,通过解码器对该标注向量集合和初始输入数据进行解码,得到描述语句。其中,该引导信息用于对编码器的编码过程进行引导,以提高生成描述语句的质量,使得所生成的描述语句能够较为准确地描述图像且符合语义。
由于相关技术中所使用的引导信息是人为预先设计的特定信息,因此该引导信息可能不能对所有图像的编码过程进行准确引导,即通过该引导信息可能不能准确生成图像的描述语句,导致生成的描述语句的质量较低。
发明内容
为了解决相关技术中存在的通过人为设计的特定引导信息不能准确生成图像的描述语句,导致生成的描述语句的质量较低的问题,本发明实施例提供了一种图像识别方法、装置及存储介质。所述技术方案如下:
第一方面,提供了一种图像识别方法,所述方法包括:
通过指定编码器对待进行识别的目标图像进行特征提取,得到特征向量和第一标注向量集合;
对所述特征向量进行初始化处理,得到第一初始输入数据;
基于所述第一标注向量集合,通过第一指定引导网络模型生成第一引导信息,所述第一指定引导网络模型是通过样本图像训练得到;
基于所述第一引导信息、所述第一标注向量集合和所述第一初始输入数据,通过指定解码器确定所述目标图像的描述语句。
第二方面,提供了一种图像识别装置,所述装置包括:
提取模块,用于通过指定编码器对待进行识别的目标图像进行特征提取,得到特征向量和第一标注向量集合;
处理模块,用于对所述特征向量进行初始化处理,得到第一初始输入数据;
生成模块,用于基于所述第一标注向量集合,通过第一指定引导网络模型生成第一引导信息,所述第一指定引导网络模型是通过样本图像训练得到;
确定模块,用于基于所述第一引导信息、所述第一标注向量集合和所述第一初始输入数据,通过指定解码器确定所述目标图像的描述语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710814187.2/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序