[发明专利]从图像生成对象嵌入有效
| 申请号: | 201880069917.3 | 申请日: | 2018-11-01 |
| 公开(公告)号: | CN111279363B | 公开(公告)日: | 2021-04-20 |
| 发明(设计)人: | G.F.施罗夫;D.卡列尼琴科;叶可人 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/00 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 图像 生成 对象 嵌入 | ||
用于训练对象嵌入系统的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。在一个方面,方法包括将所选图像作为输入提供给对象嵌入系统并生成相应的嵌入,其中对象嵌入系统包括缩略神经网络和嵌入神经网络。该方法还包括基于损失函数反向传播梯度,以减小相同对象实例的嵌入之间的距离,并增大不同对象实例的嵌入之间的距离。
背景技术
本说明书涉及使用神经网络处理图像。
机器学习模型接收输入并基于接收到的输入生成输出,例如预测的输出。一些机器学习模型是参数模型,并且基于接收到的输入和模型的参数的值生成输出。
一些机器学习模型是深度模型,该深度模型采用多层模型来针对接收到的输入生成输出。例如,深度神经网络是深度机器学习模型,该深度机器学习模型包括输出层和一个或多个隐藏层,每个隐藏层对接收到的输入应用非线性变换以生成输出。
发明内容
本说明书描述了一种在一个或多个位置的一个或多个计算机上实现为计算机程序的方法,用于训练对象嵌入(embedding)系统。
根据第一方面,提供了一种用于对象嵌入系统的端到端训练的方法,该方法包括:在多个图像上迭代地训练对象嵌入系统,每一个图像描绘特定类型的对象,训练的每个迭代包括:将所选图像作为输入提供给对象嵌入系统并生成相应的嵌入,其中对象嵌入系统包括缩略(thumbnailing)神经网络和嵌入神经网络,其中每个神经网络包括多个相互排斥的连续层,并且其中使用对象嵌入系统生成图像中描绘的对象的嵌入包括:生成图像中描绘的对象的缩略表示作为缩略神经网络的输出,其中缩略神经网络根据缩略神经网络参数的集合的值处理输入,以:确定空间变换的参数的值,该空间变换定义缩略表示的像素和图像的像素之间的对应关系;以及使用该空间变换和图像生成缩略表示作为输出;通过将缩略表示作为输入提供给嵌入神经网络来生成嵌入,该嵌入神经网络被配置为根据嵌入神经网络参数的集合的值来处理缩略表示,以生成嵌入作为输出;基于损失函数确定梯度,以减小相同对象实例的嵌入之间的距离,并增大不同对象实例的嵌入之间的距离;以及使用梯度调整空间变换器神经网络参数的集合的值和嵌入神经网络参数的集合的值。
在一些实现方式中,该对象嵌入系统还包括检测神经网络,该检测神经网络包括多个连续层,并且使用对象嵌入系统生成图像中描绘的对象的嵌入还包括:通过将图像作为输入提供给检测神经网络来生成图像的编码表示,其中检测神经网络被配置为根据检测神经网络参数的集合的值来处理图像,以生成图像的编码表示;以及将图像的编码表示作为输入提供给缩略神经网络。
在一些实现方式中,预训练检测神经网络以生成图像的编码表示,该编码表示包括识别图像中特定类型的对象的预测位置的数据。
在一些实现方式中,基于不是由缩略神经网络生成的特定类型的对象的缩略表示,预训练嵌入神经网络。
在一些实现方式中,基于损失函数确定梯度还包括:对于每个所选图像,确定由缩略神经网络生成的缩略表示的关键点的位置;确定图像的参考帧中缩略表示的关键点的位置;以及减小图像中描绘的特定类型的对象的关键点的位置和图像的参考帧中缩略表示的关键点的位置之间的误差度量。
在一些实现方式中,图像中描绘的特定类型的对象的关键点包括图像中描绘的特定类型的对象周围的边界框的顶点,并且其中缩略表示的关键点包括缩略表示的边界顶点。
在一些实现方式中,误差度量是图像中描绘的特定类型的对象的关键点的位置和图像的参考帧中缩略表示的关键点的位置之间的误差的总和;并且如果图像中描绘的特定类型的对象的关键点的位置和图像的参考帧中缩略表示的关键点的对应位置之间的距离小于容差半径,则它们之间的误差为零。
在一些实现方式中,容差半径在训练迭代中增加,直到达到最大阈值。
在一些实现方式中,缩略神经网络的空间变换包括图像扭曲(warping)空间变换,该图像扭曲空间变换根据缩略表示的每个像素处的位移矢量来定义缩略表示的像素和图像的像素之间的对应关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880069917.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:液滴分配装置及系统
- 下一篇:用于在海上饲养水产养殖动物的装置
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





