[发明专利]一种数据处理方法、装置、设备及可读存储介质有效
申请号: | 202010724466.1 | 申请日: | 2020-07-24 |
公开(公告)号: | CN111885414B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 梁启仍 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | H04N21/439 | 分类号: | H04N21/439;H04N21/44;H04N21/234;H04N21/233;H04N21/222;G10L21/02;H04S1/00;H04S7/00 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 设备 可读 存储 介质 | ||
1.一种数据处理方法,其特征在于,包括:
获取目标视频的视频帧数据以及音频帧数据;
通过对象识别模型识别所述目标视频中目标对象的目标对象类别;其中,所述目标对象包括处于静止状态的对象以及处于运动状态的对象;所述对象识别模型还用于检测出处于静止状态的对象的发声部位发生变化;所述对象识别模型包括唇动检测组件和运动物体识别组件;所述唇动检测组件包括唇动检测网络;
将所述音频帧数据输入至音频识别模型,通过所述音频识别模型确定所述音频帧数据所属的发声对象类别;
将处于静止状态的对象以及处于运动状态的对象分别对应的目标对象类别与所述发声对象类别进行匹配,得到匹配结果;
在所述匹配结果指示处于运动状态的对象对应的目标对象类别与所述发声对象类别匹配成功时,将所述视频帧数据输入至所述对象识别模型,通过所述对象识别模型中的所述运动物体识别组件识别所述视频帧数据中的背景图像,获取所述背景图像的背景像素值,获取所述视频帧数据对应的视频帧像素值,将所述背景图像的背景像素值与所述视频帧数据的视频帧像素值进行差分比较,得到所述背景像素值与所述视频帧像素值之间的差异像素值,将所述差异像素值所在的区域,确定为所述目标对象在所述视频帧数据中的位置坐标,根据所述位置坐标确定所述目标视频中目标对象的位置属性信息;所述目标对象与所述音频帧数据相关联;所述位置属性信息是由所述对象识别模型基于所述视频帧数据所识别得到的;
在所述匹配结果指示处于静止状态的对象对应的目标对象类别与所述发声对象类别匹配成功时,将所述视频帧数据输入至所述对象识别模型,在所述对象识别模型的所述唇动检测网络中获取N个连续视频帧数据,在所述N个连续视频帧数据中,通过所述唇动检测网络中的三维卷积器和残差网络识别所述目标对象的发声部位发生变化的视频帧数据,将所述目标对象的发声部位发生变化的视频帧数据作为变化视频帧数据,确定所述目标对象在所述变化视频帧数据中的位置坐标,根据所述位置坐标确定所述目标视频中目标对象的位置属性信息;所述N个连续视频帧数据是指具有连续时间戳的视频帧数据;每个连续视频帧数据均包含所述目标对象;N为小于或等于M的正整数,M为所述视频帧数据的总数量;M为大于1的整数;所述唇动检测网络中的残差网络包括17个卷积层与1个全连接层;所述唇动检测网络是通过输入多个样本唇动视频至所述三维卷积器与所述残差网络中进行训练得到;所述对象识别模型还具有确定目标对象的嘴唇发生跳动的起始时间与结束时间的功能;
获取参数映射表;所述参数映射表包括至少两个参数映射关系;一个参数映射关系包括一个位置属性信息与一组声道编码参数之间的映射关系;一个位置属性信息包括一个景深距离与一个位置偏移角度;每组声道编码参数中均包含第一声道编码参数与第二声道编码参数;
在所述参数映射表中,获取与所述位置属性信息具有映射关系的声道编码参数;
根据具有映射关系的声道编码参数对所述音频帧数据进行方位增强处理,得到增强音频帧数据。
2.根据权利要求1所述的方法,其特征在于,所述获取目标视频的视频帧数据以及音频帧数据,包括:
获取目标视频,将所述目标视频输入至视频解封装组件,通过所述视频解封装组件对所述目标视频进行解封装,得到视频流数据以及音频流数据;
在所述视频解封装组件中,对所述视频流数据和所述音频流数据分别进行解码,得到所述视频帧数据以及所述音频帧数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述位置坐标确定所述目标视频中目标对象的位置属性信息,包括:
获取视频虚拟镜头的中心位置信息;所述视频虚拟镜头为模拟拍摄所述目标对象的虚拟镜头;
根据所述位置坐标,确定所述目标对象与所述中心位置信息之间的景深距离;
确定所述目标对象与所述视频虚拟镜头之间的位置偏移角度;
将所述景深距离与所述位置偏移角度确定为所述目标对象的位置属性信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010724466.1/1.html,转载请声明来源钻瓜专利网。