[发明专利]使用分离的学习通路和滤波通路的视频代码化在审
申请号: | 201980017194.7 | 申请日: | 2019-08-20 |
公开(公告)号: | CN111819576A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 徐睿杰;达克·何 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;H04N19/172;H04N19/61;H04N19/85;H04N21/234;H04N21/4408;H04N21/84 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 分离 学习 通路 滤波 视频 代码 | ||
在视频解码器内引入用于滤波和机器学习的分离通路。第一通路对重构帧的第一副本进行滤波以产生滤波帧,所述滤波帧被包括在输出视频流中以供显示。第二通路使用学习模型处理所述重构帧的第二副本,诸如用于训练和/或推理。所述第一通路和所述第二通路是在编码器或解码器的所述重构级之后被引入的。因此,所述第一通路和所述第二通路中的每一个的输入都在没有使用非内射函数的情况下产生的,而且虽然所述第一通路包括至少一个非内射函数,但是所述第二通路没有。因此,与使用所述滤波帧训练所述学习模型相比,使用所述重构帧的所述第二副本训练所述学习模型会导致分类精度上限更大。
背景技术
数字视频流可以使用帧或静止图像的序列来表示视频。数字视频能够被用于各种应用,包括例如视频会议、高清晰度视频娱乐、视频广告或用户生成的视频共享。数字视频流能够包含大量数据并且消耗计算设备的大量计算或通信资源以进行视频数据的处理、传输或存储。已经提出各种方法(包括编码或者解码技术)来减少视频流中的数据量。
发明内容
根据本公开的实施方式的解码器包括熵解码级、去量化级、逆变换级、重构级、第一后置重构通路和第二后置重构通路。熵解码级对表示来自编码比特流的编码视频帧的语法元素进行熵解码,以产生量化变换系数。去量化级对量化变换系数进行去量化,以产生变换系数。逆变换级对变换系数进行逆变换,以产生预测残差。重构级重构预测残差,以产生重构帧。第一后置重构通路使用一种或多种滤波技术对重构帧的第一副本进行滤波,以产生滤波帧,其中,滤波帧被包括在输出视频流中,以在用户设备上显示。第二后置重构通路使用重构帧的第二副本训练学习模型。与使用滤波帧训练学习模型相比,使用重构帧的第二副本训练学习模型会导致学习模型的分类精度上限更大。
根据本公开的实施方式的方法包括对表示编码视频数据的量化变换系数进行去量化,以产生变换系数。方法进一步包括对变换系数进行逆变换,以产生预测残差。方法进一步包括重构预测残差,以产生重构帧。方法进一步包括对重构帧的第一副本进行滤波,以产生滤波帧。方法进一步包括使用学习模型处理重构帧的第二副本,以标识视频内容。
根据本公开的实施方式的集成电路包括执行指令的处理器。指令包括从编码比特流中解码编码视频数据,以产生重构帧。指令进一步包括使用环内滤波器在第一解码通路上处理重构帧的第一副本,以产生输出视频流以用于在用户设备上显示。指令进一步包括通过使用学习模型在第二解码通路上处理重构帧的第二副本,以标识视频内容。
在以下对实施方式、所附权利要求和附图的详细描述中公开了本公开的这些和其它方面。
附图说明
这里的描述参考下面描述的附图,其中,贯穿若干视图,相似的附图标记指代相似的部分。
图1是视频编码和解码系统的示例的示意图。
图2是可以实现发送站或接收站的计算设备的示例的框图。
图3是待编码并随后解码的视频流的示例的图。
图4是根据本公开的实施方式的编码器的示例的框图。
图5是根据本公开的实施方式的解码器的示例的框图。
图6是包括分离的学习和滤波通路的编码器的示例的框图。
图7是包括分离的学习和滤波通路的解码器的示例的框图。
图8是用于使用分离的学习和滤波通路的视频代码化的技术的示例的流程图。
图9是使用用于视频编码的学习模型来训练和推理的技术的示例的流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980017194.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:起重机
- 下一篇:安全和跨设备一致的视频压缩