[发明专利]视频代码化的感受野一致卷积模型在审
申请号: | 201980017854.1 | 申请日: | 2019-09-17 |
公开(公告)号: | CN111837140A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 克劳迪诺·科埃略;阿基·库塞拉;山·李;达克·何 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 代码 感受 一致 卷积 模型 | ||
1.一种用于确定在视频代码化时对块进行编码的模式决策的卷积神经网络,包括:
特征提取层,所述特征提取层用于提取用于确定所述模式决策的所述块的特征,其中,通过设置等于内核大小的步幅值来对所述特征提取层中的至少一个处的输入执行非重叠卷积运算,所述模式决策包括对所述块的块分割,所述块具有N×N大小,并且所述块的最小分割输出具有S×S大小;以及
多个分类器,所述多个分类器用于处理所述块的所述特征,其中:
每个分类器包括分类层,所述分类层中的每个分类层用于接收具有相应特征尺寸的相应特征映射,
每个分类器配置为通过以下操作来针对所述块中的大小为(αS)×(αS)的子块推断分割决策,其中,α是2的幂,且α=2,……,N/S:
在所述分类层中的一些连续分类层处应用大小为1×1的内核,以减小所述相应特征尺寸;以及
通过所述分类层中的最终层来输出与N/(αS)×N/(αS)×1输出映射对应的输出。
2.根据权利要求1所述的卷积神经网络,其中,进入所述特征提取层中的初始特征提取层的输入具有包括所述块和所述块的相邻像素的大小(N+1)×(N+1)×1,并且所述特征提取层的分支中的第一滤波器具有2k+1的内核大小和等于2k的步幅值,其中,k为整数。
3.根据权利要求1或2所述的卷积神经网络,其中,所述特征提取层中的最终层包括从所述特征提取层接收所述块的第一特征映射的级联层,其中,所述第一特征映射中的每一个具有S×S的大小。
4.根据权利要求1至3中任一项所述的卷积神经网络,其中,所述特征提取层包括等于所述块的可能四叉树分割决策的数目的分支数目,所述分支中的每一个包括所述特征提取层中的至少一个。
5.根据权利要求4所述的卷积神经网络,其中,所述特征提取层布置成使得所述分支中的每一个包括不同特征提取层,所述不同特征提取层不指代所述分支中的任何其它分支的所述特征提取层。
6.根据权利要求4或5所述的卷积神经网络,其中,所述多个分类器包括与所述分支中的相应分支对应的相应分类器,由相应分类器的初始分类层接收的所述特征映射被配置为针对所述块中的大小为(αS)×(αS)的子块推断所述分割决策,所述子块包括具有相应特征尺寸(N/2β)×(N/2β)的N个特征映射的卷积,其中,β为整数,且β=0,……,(分支数目-1)。
7.根据权利要求1至4中任一项所述的卷积神经网络,其中,所述特征提取层中的初始特征提取层包括用于使用所述块的亮度数据作为输入来执行第一卷积运算的第一内核以及用于使用所述块的色度数据作为输入来执行第二卷积运算的第二内核,所述第一内核具有与所述第二内核不同的内核大小,并且其中,对所述块的所述块分割包括对所述块的所述亮度数据的分割。
8.根据权利要求7所述的卷积神经网络,其中,在所述初始特征提取层之后的第二滤波器提取层输出具有单个内核大小的相应特征映射。
9.根据权利要求7或8所述的卷积神经网络,其中,所述特征提取层布置成多个分支,每个分支与所述多个分类器中的相应一个分类器相关联,并且其中,所述分支中的每一个至少共享所述初始特征提取层。
10.根据权利要求1至9中任一项所述的卷积神经网络,其中,所述模式决策包括所述块的预测模式,所述多个分类器包括块分割分类器,并且所述卷积神经网络进一步包括多个预测模式分类器,其中:
多个预测模式分类器中的每一个包括至少一个分类层,所述分类层中的每个分类层接收具有相应特征尺寸的相应特征映射,并且每个分类器的初始分类层接收所述特征映射作为下述中的一个:所述特征提取层中的最终特征提取层的输出、或相应多个预测模式分类器的分类层的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980017854.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:执行对象的深度估计的方法和装置
- 下一篇:用于确定压差大小的压差传感器