[发明专利]一种基于机器学习的视频处理方法有效
申请号: | 201911189862.2 | 申请日: | 2019-11-28 |
公开(公告)号: | CN111047529B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 王建伟;谢亚光;陈勇;孙彦龙 | 申请(专利权)人: | 杭州当虹科技股份有限公司 |
主分类号: | G06T5/00 | 分类号: | G06T5/00;G06T5/40;G06T7/11;G06N3/08;H04N5/268;H04N19/117;H04N19/149;H04N19/176;H04N19/186;H04N19/87 |
代理公司: | 杭州橙知果专利代理事务所(特殊普通合伙) 33261 | 代理人: | 贺龙萍 |
地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 视频 处理 方法 | ||
1.一种基于机器学习的视频处理方法,其特征是,包括筛选数据和提取特征形成数据集、训练生成预测模型、视频处理三个部分,具体包括如下步骤:
(1)构建数据集时,首先通过一定规则对视频序列筛选样本点,去除视频内容空间冗余和时间冗余,使得得到的数据集在规模不大的情况下覆盖尽可能多的数据特征,既考虑场景内整体的亮度和对比度,又考虑每个图像帧和16x16宏块的亮度和对比度,最终每帧图像都提取一定比例的像素点作为样本形成数据集;构建数据集的具体操作方法如下:
(11)使用HDR摄像机,拍摄生成多段同样内容的HDR和SDR素材;
(12)对于SDR素材,进行场景检测,并以16x16的宏块MB分割图像,并将相邻的4x4个宏块MB作为搜索单元;
(13)如果当前帧为序列开始帧或场景切换点,那么选取每个搜索单元的左上角宏块为有效宏块,并记录该宏块坐标(x, y);如果当前帧为场景内的某一帧,那么以前一帧的有效宏块坐标(x’, y’)作为基准宏块,在搜索单元内依次遍历所有宏块并计算与基准宏块的亮度值的欧氏距离,并以欧式距离最大的宏块作为有效宏块,并记录该宏块坐标(x, y);
(14)以步长4对有效宏块内的像素点进行降采样,即每个宏块提取到4x4=16个有效像素点;
(15)以每个有效像素点的Y/U/V分量分别作为每一个样本点的3个特征值;
(16)对有效宏块的256个像素进行直方图统计,分别获取Y/U/V分量的数值的平均值、中位值,并获取其最大值和最小值,这样Y/U/V三个分量的最大值、最小值、平均值、中位值,共12个数值作为整个宏块中每个样本点的特征值;
(17)对整帧图像的像素点做直方图统计,分别获取Y/U/V分量的数值的平均值、中位值、众数值,并获取其最大值和最小值,这样Y/U/V三个分量的最大值、最小值、平均值、中位值、众数值,共15个数值作为整帧图像中每个样本点的特征值;
(18)如果检测到场景切换,那么统计前一个场景的亮度平均值,作为整个场景中每个样本点的特征值;
(19)对于HDR素材,以同样的方式分割图像,并以SDR图像中有效宏块坐标(x, y),获取与之相对应的有效像素点的Y/U/V分量的数值,作为一个样本点的3个输出值;这样,每个样本点共计31个特征值和3个输出值;
(2)训练生成预测模型时,采用简单的多层全连接神经网络,保证预测精度的同时运算复杂度较低;
(3)视频处理时,使用训练好的预测模型对输入图像进行处理,然后再进行去块效应滤波和样点自适应补偿滤波。
2.根据权利要求1所述的一种基于机器学习的视频处理方法,其特征是,在步骤(12)中,图像行尾和列尾不足4个的,以实际大小为准。
3.根据权利要求1所述的一种基于机器学习的视频处理方法,其特征是,在步骤(13)中,欧氏距离的计算公式为: ,其中Yi指的是第i帧有效宏块的像素亮度分量,Yi'指的是第i帧的基准宏块的像素亮度分量。
4.根据权利要求1所述的一种基于机器学习的视频处理方法,其特征是,在步骤(2)中,训练生成预测模型的具体操作方法如下:
(21)构建训练网络,使用简单的多层全连接神经网络,样本点中有31个特征值,选择网络模型;
(22)使用上述网络模型分别以Y/U/V分量为输出值进行训练;
(23)选择合适的迭代步长和次数,并根据训练结果做适当调整,最终保存3个网络模型参数。
5.根据权利要求1所述的一种基于机器学习的视频处理方法,其特征是,在步骤(3)中,视频处理的具体操作方法如下:
(31)将输入的SDR视频解码,并检测场景;
(32)遍历该场景,对于每帧图像分别计算得到整帧图像Y/U/V分量的数值的平均值、中位值、众数值,并获取其最大值和最小值,得到15个输入特征值;
(33)由该场景中每帧图像的亮度平均值,计算该场景的亮度平均值,得到1个输入特征值;
(34)对于每帧图像,将其划分为16x16大小的宏块,分别计算得到每个宏块Y/U/V分量的平均值、中位值,并获取其最大值和最小值,得到12个输入特征值;
(35)对于图像中的每个像素点,由其自身的Y/U/V分量的3个值,加上其所属宏块的12个输入特征值,加上所属图像帧的15个输入特征值,再加上所属场景的1个输入特征值,组成长度为31的输入特征向量;
(36)使用步骤(2)中训练好的网络模型参数,分别预测得到每个像素的Y/U/V分量的输出;
(37)对预测输出的图像进行去块效应滤波和样点自适应补偿滤波,得到最终的HDR图像;
(38)对HDR图像序列进行视频编码压缩,输出HDR视频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州当虹科技股份有限公司,未经杭州当虹科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911189862.2/1.html,转载请声明来源钻瓜专利网。