[发明专利]一种基于深度学习多层次分割新闻视频的通用方法有效

专利信息
申请号: 201611173080.6 申请日: 2016-12-18
公开(公告)号: CN106658169B 公开(公告)日: 2019-06-07
发明(设计)人: 蔡轶珩;崔益泽;高旭蓉;邱长炎;王雪艳;孔欣然 申请(专利权)人: 北京工业大学
主分类号: H04N21/44 分类号: H04N21/44;G06N3/08;G06N3/04
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于深度学习多层次分割新闻视频的通用方法属于计算机人工智能和视频处理领域。本发明首先根据频道标识符(logo)及主持人脸的特点,进行针对性的方式处理,提高后续训练及检测效果;然后,考虑到多类新闻视频之间的差异性,本文率先提出预先进行新闻logo识别,将识别后的频道再输入至各自的人脸检测通道中依次识别的方法,进而提高了视频分割的通用性;最后,基于主持环节的共同点,本文提出采用人工特征及时间阈值的交叉检测进行精筛选,进而最终检测到各频道的主持环节,实现分割多类新闻视频的通用方法。本方法大大增强了分割各类新闻视频的普适性,进而更好地代替手动分割视频方法,极大地减少了人力成本,提高视频处理的效率。
搜索关键词: 一种 基于 深度 学习 多层次 分割 新闻 视频 通用 方法
【主权项】:
1.一种基于深度学习多层次分割新闻视频的通用方法,其特征在于,包括以下步骤:1)、训练数据的准备、扩张及预处理具体步骤如下:(1.1)获取数据首先将获取到的视频拆分成帧;设定一个固定大小M*M的滑动窗口在获取的人脸图片上进行滑动,当窗口与人脸的交集大于60%,视为正样本;只有当窗口与人脸交集在15%‑30%之间,才将其视为负样本;对于logo区域的提取,采用固定大小n*n的矩形窗口在视频logo处统一进行截取,得到logo的图片;(1.2)数据扩张针对新闻logo图片,对其采用图像锐化的方式进行处理同时保留了锐化之前的logo图像;对(1.1)中得到的人脸图片裁剪,然后放大到原来尺寸,这样不仅会加强人脸的细节部分,还会将原来数据集扩大;针对主持人头部扭转的情况,将所有人脸数据进行左右各45度方向的旋转;(1.3)预处理将logo及人脸图片进行同样的去均值处理,求得所有图片像素矩阵的均值,作为中心,然后将输入图片减去均值,再做后续操作;(1.4)标注数据集最后,将(1.1)(1.2)(1.3)步骤得到的人脸数据分为正样本和负样本两类进行标注;对于得到的logo数据,根据需要检测的类别,对其标注;2)、两类深度网络的构建与训练(2.1)构建logo卷积神经网络;卷积神经网络整体包含了输入层、卷积层、池化层、全连接层以及最后的softmax分类器;网络输入层的输入固定为n*n像素点大小;共由两层卷积层,两层Max池化层交替组合而成,然后连接全连接层,最后一层本文将根据频道种类数O,设计出输出为O类的softmax分类器进行分类;(2.2)构建人脸卷积神经网络对于人脸卷积神经网络输入层的输入固定为M*M像素点大小;人脸网络是由四层卷积层,两层Max池化层交替连接而成的,最后一层的卷积层选择用两个特征核进行全卷积滑动,输出两张全局特征图,进而输出至softmax二分类器中进行检测;(2.3)训练卷积神经网络;向两个构建完成的网络输入训练图片,根据卷积神经网络算法逐层计算后,得到输出值,反向传播,计算每个输出值与对应图片所属类别的误差,根据最小误差准则,修正网络每层的参数,将误差最小化,逐渐使训练的网络收敛,分别得到训练模型,用于以后的检测当中;3)、频道种类的识别预先识别频道类别,根据频道类别再进行主持人播报场景检测的方法;另一方面新闻视频的共性表现在:所有新闻视频logo出现的位置相同;所有新闻均是播报环节与事件环节依次更替进行;根据每个新闻视频logo位置的不变性,统一对所有新闻视频固定位置范围进行logo的识别;将识别后的频道输入,然后识别出主持人播报环节即可将左右视频段视为事件环节,进而实现新闻视频的自动分割;4)、主持人场景的检测及分割场景检测根据频道特性,分为初步检测和二次筛选两个部分;具体内容如下:(4.1)基于深度网络的初步检测根据频道类别提前设定好固定位置及大小的人脸检测矩形框,采用(2.3)中训练好的人脸卷积神经网络对矩形框内的人脸进行检测;如果出现人脸,则初步判断为主持播报场景,进而采集到多个主持播报场景的候选视频段;(4.2)基于颜色特征及时间阈值的交叉筛选首先,依据不同的新闻频道,在每个通道中为不同节目的主持人的衣着位置设定好矩形框以将衣着范围确定;然后,对矩形框内区域进行RGB空间的颜色特征提取,计算每个候选视频段中的平均颜色特征向量;最后,利用欧式距离度量每个视频段的平均颜色特征向量与所有候选视频段的平均颜色特征向量之间的距离,当距离均小于阈值且检测出的视频段持续时间大于时间阈值时,则确定该视频段为主持人播报场景;通过基于两类深度网络的初筛选以及基于颜色特征和时间阈值的交叉检测,自动筛选得到了最终的主持人播报场景;(4.3)视频分割对整个视频中主持播报场景时域两边的视频段自动判断为新闻事件场景,从而进行时域上的分割。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611173080.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top