[发明专利]使用神经网络的场景理解和生成在审
申请号: | 201780077072.8 | 申请日: | 2017-11-04 |
公开(公告)号: | CN110168560A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | D.J.雷赞德;S.M.埃斯拉米;K.格雷戈尔;F.O.贝塞 | 申请(专利权)人: | 渊慧科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06T15/20;G06T17/00;G06N3/04 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 英国*** | 国省代码: | 英国;GB |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 观察 图像 视频 视频帧 裁剪 计算机存储介质 神经网络处理 计算机程序 场景 捕获图像 场景理解 方法使用 神经网络 数字表示 图像渲染 时间戳 相机 输出 | ||
用于图像渲染的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。在一个方面,一种方法包括接收表征特定场景的多个观察,每个观察包括特定场景的图像和识别捕获图像的相机的位置的数据。在另一方面,该方法包括接收表征特定视频的多个观察,每个观察包括来自特定视频的视频帧和识别特定视频中的视频帧的时间戳的数据。在又一方面,该方法包括接收表征特定图像的多个观察,每个观察包括特定图像的裁剪和表征特定图像的裁剪的数据。该方法使用观察神经网络处理多个观察中的每个观察以确定数字表示作为输出。
背景技术
本说明书涉及使用神经网络处理图像。
神经网络是采用一层或多层非线性单元来预测对于接收的输入的输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作到网络中下一层(即下一个隐藏层或输出层)的输入。网络的每个层依照相应参数集合的当前值从接收的输入生成输出。
发明内容
本说明书描述了实现为在一个或多个位置中的一个或多个计算机上的计算机程序的场景理解系统,其生成环境的语义表示。系统接收表征环境的观察,每个观察包括环境的图像和对应视点数据。例如,环境可以是场景,例如,包含对象的3D房间,图像可以是场景的图像,并且视点数据可以为每个图像识别捕获图像的相机的位置。该系统通过用观察神经网络处理观察来生成环境的语义表示,即,从观察图像的特定像素值抽象出的环境的基础内容的描述。系统不对语义表示施加任何明确的约束或结构,但是系统被训练以生成足够表达以渲染从任意视点数据的环境的新图像的语义表示。
根据第一方面,提供了一种场景理解系统,其被配置用于:接收表征特定场景的多个观察,每个观察包括特定场景的图像和识别捕获图像的相机的位置的数据;使用观察神经网络处理多个观察中的每一个,其中,观察神经网络被配置为对于观察中的每一个:处理观察以生成观察的低维表示;通过组合观察的低维表示来确定特定场景的数字表示;以及提供特定场景的数字表示,用于表征特定场景的内容。
这种方法的一些优点将在后面描述。由方法/系统的实现方式产生的表示具有许多应用,例如作为一般图像分析/预测系统或作为强化学习系统的前端。
在一些实现方式中,数字表示是表示特定场景的基础内容的数值的集合。
在一些实现方式中,数字表示是特定场景的语义描述,如先前所描述的。
在一些实现方式中,组合观察的低维表示包括:对低维表示求和以生成数字表示。
在一些实现方式中,该系统还被配置为:接收识别新相机位置的数据;以及使用生成器神经网络处理识别新相机位置的数据和特定场景的数字表示,以生成从新相机位置处的相机拍摄的特定场景的新图像。如本文所用,对相机位置的指代应被解释为包括定位和/或观看方向。因此,新相机位置可以包括新相机定位和新相机观看方向或光轴方向中的一个或两个。例如,生成器神经网络可以确定潜在变量集合上的先验分布,以确定新图像(或者如稍后所述,视频帧或裁剪)的像素值。潜在变量可以包括由生成器神经网络推断的变量,并且可以以识别新相机位置的数据和特定场景的数字表示为条件。
因此,在一些实现方式中,生成器神经网络被配置为:在多个时间步长中的每一个处:采样时间步长的一个或多个潜在变量,并通过使用深度卷积神经网络处理隐藏状态、采样的潜在变量、数字表示和识别新相机位置的数据来更新时间步长为止的隐藏状态,以生成更新的隐藏状态;并且在多个时间步长中的最后的时间步长之后:在最后的时间步长之后,从更新的隐藏状态生成特定场景的新图像。
在一些实现方式中,在最后的时间步长之后从更新的隐藏状态生成特定场景的新图像包括:在最后的时间步长之后,从更新的隐藏状态生成像素足够的统计;使用像素足够的统计对新图像中诸如像素的颜色值的像素值进行采样。稍后将更详细地描述示例像素足够的统计。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于渊慧科技有限公司,未经渊慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780077072.8/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序