[发明专利]一种用于视频编码优化的高效强化学习训练方法有效
申请号: | 201810298220.5 | 申请日: | 2018-04-03 |
公开(公告)号: | CN110351561B | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 梅元刚;陈宇;金星;朱政;丁丹丹 | 申请(专利权)人: | 杭州微帧信息科技有限公司 |
主分类号: | H04N19/176 | 分类号: | H04N19/176;H04N19/124;H04N19/147;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310000 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 视频 编码 优化 高效 强化 学习 训练 方法 | ||
本发明公开了一种用于视频编码优化的高效强化学习训练方法,用于解决强化学习在优化视频编码的训练过程中收敛速度慢和训练不稳定的问题。本发明通过首先采用进化算法得到较好的初始策略,继而采用监督学习方法初始化强化学习网络参数,减少随机初始化导致的训练初始阶段收敛慢的问题。在强化学习训练过程中,保存较好的策略,并以一定的概率随机采样好的策略,减少强化学习在探索过程中的盲目性导致的坏策略过多的问题,提高训练的收敛速度和稳定性。在强化学习训练一定阶段后,系统可能陷入局部最优,导致视频编码压缩效率提升有限。本发明每隔一定阶段,对策略网络的特定参数进行小幅度的随机扰动,并提高系统探索的范围,进一步提高视频编码的压缩效率。
技术领域
本发明涉及视频编码和强化学习,特别是一种用于视频编码优化的高效强化学习训练方法
背景技术
随着多媒体数字视频应用的不断发展和人们对视频云计算需求的不断提高,原始视频信源的数据量以使现有传输网络带宽和存储资源无法承受。因而,视频信号的压缩已成为目前国内外学术研究和工业应用的热点之一。视频压缩,也称视频编码,其目的是消除视频信号间存在的冗余信息。至今,国内外标准化组织已相继制定了多种不同的视频编码标准。自H.261视频编码标准以来,主流的视频编码标准均采用“基于块的预测和变换”的混合编码框架,即输入的视频信号经过编码器中预测、变换、量化、扫描、熵编码等编码技术处理后,最后输出比特流,以备传输或存储。经过几十年的发展,视频编码标准中的工具日趋精细和复杂,基于传统混合编码框架要取得压缩效率的显著提升变得愈发困难。
深度神经网络是人工智能的一个重要分支,从20世纪80年代以来,神经网络提供的识别和预测能力一直在提高,在图像与视频、语音与语言处理等领域表现尤为出色。深度学习在计算机视觉领域(如分类、识别等)的成功也带动了一些视频图像处理领域的发展,基于深度学习的图像超分辨率、边缘检测技术迅速发展,性能提升非常显著。受深度学习在图像处理领域的巨大优势启发,可以将深度学习引入视频或图像编码框架中以提升编码效率。目前学术界和业界关于深度学习在视频或图像编码中的应用大体有以下几类:一、系统级地改造图像编码框架;二、基于传统的混合编码框架,改造其中的部分模块,比如熵编码、变换、环路滤波、亚像素插值等;三、前处理或后处理;四、视频编码快速算法。其中第一类和第二类技术需要改变现有标准,有望在将来新的标准中予以实施,但对于工业界还比较遥远。第三类技术着重于提升主观质量。第四类技术以牺牲一定压缩效率为代价,着重于加快编码速度。
在现有主流的视频图像编码标准基础上提升压缩效率,与生态兼容,具有更好的现实意义和产业价值。视频图像内容具有极大的多样性,现有主流的视频编码标准提供给编码器设计很大的灵活性,针对不同图像内容通过调节一些编码编码策略参数,有很大的压缩效率提升空间。然而,这些策略参数通过传统的方法求解全局最优值的复杂度为NP问题,而且无法大规模生成标签来进行训练,因此常规的监督学习方法无法实施。
强化学习是机器学习中的一个领域,它强调如何基于环境而行动,以取得最大化的预期利益。近年来,强化学习的大型研究层见迭出,以阿尔法围棋(AlphaGo)为代表的成果不仅轰动了学术界,也吸引了媒体的目光。
理论上讲,一个强大的、高性能的强化学习系统应该能够在优化视频编码压缩效率中取得很好的效果。但不幸的事,强化学习目前还有很多局限。一、强化学习采样效率很低,如雅达利游戏每秒能够运行60帧,但需要相当于83个小时的游戏时间,才能达到人类的表现。强化学习所需的训练样本往往比预想的要多。二、强化学习很容易陷入局部最优,强化学习看到的是一个状态向量、自己即将输出的动作向量和之前获得的奖励,系统缺乏先验信息来学习我们所期待的反应,强化学习更倾向于找到最偷懒的局部最优解。三、强化学习中的探索和利用困境,数据来源于系统选择的策略,如果探索的过多,就会得到大量无法有效提取信息的无用数据。但如果过多地利用学习到的策略,则无法得到最好的策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州微帧信息科技有限公司,未经杭州微帧信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810298220.5/2.html,转载请声明来源钻瓜专利网。