[发明专利]图像识别与神经网络模型的训练方法、装置和系统有效
| 申请号: | 201910312111.9 | 申请日: | 2019-04-18 |
| 公开(公告)号: | CN110070030B | 公开(公告)日: | 2021-10-15 |
| 发明(设计)人: | 杜佳慧 | 申请(专利权)人: | 北京迈格威科技有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/08 |
| 代理公司: | 北京华进京联知识产权代理有限公司 11606 | 代理人: | 朱五云;王程 |
| 地址: | 100190 北京市海淀区科*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 图像 识别 神经网络 模型 训练 方法 装置 系统 | ||
1.一种图像识别方法,其特征在于,所述方法包括:
获取待识别图像;
将所述待识别图像输入神经网络模型进行特征提取处理,输出所述待识别图像的目标图像特征;所述神经网络模型包括至少一个空间变换块,所述空间变换块用于采用空间变换矩阵对输入的中间图像特征进行空间变换处理;所述中间图像特征是所述待识别图像在所述特征提取处理过程中生成的;所述空间变换块是预先训练的,用于使所述神经网络模型输出的不同模态的目标图像特征在空间特性趋于一致;
将所述待识别图像的目标图像特征和底库图像组中底库图像的底库图像特征进行比对,得到比对结果;其中,所述底库图像组包括至少一个底库图像,所述底库图像和所述待识别图像为不同模态的两个图像,所述底库图像特征是所述神经网络模型从所述底库图像中提取的;
所述空间变换块包括:全连接层和特征变换层,所述全连接层对应一个空间变换矩阵;所述特征变换层与所述全连接层连接,所述全连接层用于对所述空间变换矩阵的估计;在训练过程中,初始的空间变换矩阵为恒等矩阵,根据所述神经网络模型的损失函数对所述恒等矩阵中的空间变换系数进行优化,得到所述空间变换矩阵;
所述神经网络模型包括多个级联的特征提取块和多个所述空间变换块,所述空间变换块位于级联的两个特征提取块之间;所述特征提取块用于对所述待识别图像进行特征提取处理,生成中间图像特征,并将所述中间图像特征作为所述空间变换块的输入;所述空间变换块将空间变换处理后的中间输出特征作为级联的下一个特征提取块的输入。
2.根据权利要求1所述的方法,其特征在于,所述特征变换层用于通过所述空间变换矩阵对输入至所述特征变换层的中间图像特征进行空间变换,输出空间变换后的中间图像特征。
3.根据权利要求2所述的方法,其特征在于,所述空间变换块还包括:预处理层,所述预处理层包括:前后连接的卷积层和残差层;所述卷积层用于对输入至所述卷积层的中间图像特征进行卷积操作,输出卷积操作结果;所述残差层用于对所述输入至所述残差层的中间图像特征和所述卷积操作结果进行按位相加操作,输出按位相加结果作为所述特征变换层的输入。
4.根据权利要求2或3所述的方法,其特征在于,所述空间变换块还包括:后处理层,所述后处理层的输入为所述特征变换层的输出,所述后处理层包括:前后连接的卷积层和残差层;所述卷积层用于对输入至所述卷积层的中间图像特征进行卷积操作,输出卷积操作结果;所述残差层用于对所述输入至所述残差层的中间图像特征和所述卷积操作结果进行按位相加操作,输出按位相加结果作为所述空间变换块的输出。
5.根据权利要求4所述的方法,其特征在于,所述卷积层为深度可分离卷积层。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练样本;所述训练样本包括多个对象的不同模态的图像,且各图像标注有对象标签和模态标签;
将各图像输入初始神经网络模型中,输出所述各图像的图像特征,以及基于所述各图像的图像特征进行分类处理所得到的各图像的对象分类;
计算各图像的对象分类与对象标签之间的第一损失,并基于所述模态标签,计算训练样本中不同模态的图像特征之间的第二损失,以及根据所述第一损失和第二损失,计算所述初始神经网络模型的损失函数的值;
根据所述损失函数的值,对所述初始神经网络模型的参数进行调整,得到所述神经网络模型;所述初始神经网络模型的参数包括至少一个所述空间变换块对应的空间变换矩阵。
7.根据权利要求6所述的方法,其特征在于,所述第一损失为交叉熵损失,所述交叉熵损失包括训练样本中各图像的对象标签与对象分类之间的损失;所述第二损失为三元组损失,所述三元组损失包括训练样本中三元图像组中各图像的图像特征之间的损失,所述三元图像组包括:参考图像、正样本图像和负样本图像,所述参考图像和所述正样本图像为同一对象的不同模态的两个图像,所述参考图像和所述负样本图像为不同对象的同一模态的两个图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京迈格威科技有限公司,未经北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910312111.9/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





