[发明专利]一种基于卷积神经网络的视频语义场景分割方法在审

专利信息
申请号: 201710725996.6 申请日: 2017-08-22
公开(公告)号: CN107590442A 公开(公告)日: 2018-01-16
发明(设计)人: 韩守东;黄飘;朱梓榕;陈阳 申请(专利权)人: 华中科技大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/62
代理公司: 华中科技大学专利中心42201 代理人: 廖盈春,李智
地址: 430074 湖北*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 卷积 神经网络 视频 语义 场景 分割 方法
【说明书】:

技术领域

发明属于图像处理和机器视觉中的视频场景分割技术领域,更具体地,涉及一种基于卷积神经网络的视频语义场景分割方法。

背景技术

通常情况下,人们并不从视频镜头层面上来理解视频内容,而更习惯从场景层次上去理解视频内容,这是因为镜头只是视频结构中的一个组成单元,不能完整的表达语义信息,容易造成信息的丢失。但场景是一个镜头类的集合,包含着大量的语义信息,因此更加符合人们的理解习惯,也使得视频场景分割的研究更具有现实意义。

将内容上有联系的一系列镜头结合起来,用来描述视频中含有某一语义信息的事件或者活动,我们称之为镜头聚类。得到的镜头簇也可称之为场景、事件、情节、故事单元等。显而易见,场景聚类具有时序相关的特性,按照摄像拍摄手法的不同可以分为三种形式:连续场景、交叉场景和混合场景。正是因为场景没有标准的定义,视频的类型又丰富多样,因此目前仍没有一个行之有效的场景分割方法。但研究者们提出的各种视频场景分割方法也给该问题提供了解决思路。

一般地,视频场景分割可以分为传统的场景分割和利用机器学习的场景分割两种。传统的视频场景分割不需要加入人工标记,主要采用视频关键帧底层图像特征,如基于谱聚类和基于分层聚类的视频场景分割方法。该类方法缺乏很好的可伸缩性,大多数情况下都需要人工的方式来完成关键帧特征的选取以及最终聚类数目的确定,对于聚类的效率和聚类质量有着直接影响。其次视频底层结构与高层结构之间还存在着语义鸿沟的问题。

目前大多数视频场景分割都是基于传统分割方法,首先提取镜头关键帧的单特征或者多特征,然后进行多特征融合,利用相似度比较方法进行聚类,最后得到场景分割结果。虽然算法结构简单,时间性能较好,但特征提取过程和融合的过程中容易造成信息的丢失,并且未考虑到视频场景分割的时序性问题,因此对于略为复杂的场景分类情形效果较差。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种基于卷积神经网络的视频语义场景分割方法,由此解决现有视频场景分割方法在特征提取过程和融合的过程中容易造成信息的丢失,并且未考虑到视频场景分割的时序性问题而导致的对场景分类效果较差的技术问题。

为实现上述目的,本发明提供了一种基于卷积神经网络的视频语义场景分割方法,包括:

对待分割视频进行镜头分割得到分割后的镜头,取每个镜头的中间帧作为镜头关键帧;

取待分割视频中的部分视频帧作为网络训练样本集,取镜头关键帧作为测试样本集,并对网络训练样本集中的图像以及测试样本集中的图像进行缩小;

基于缩小后的网络训练样本集以及缩小后的测试样本集对卷积神经网络进行训练,输出每个镜头关键帧的语义特征向量;

利用每个镜头关键帧的语义特征向量以及镜头时序特征,计算镜头之间的距离,然后逐一比较镜头之间的距离,将镜头距离小于预设阈值的镜头作为同一镜头簇,最后将每个镜头簇的末尾镜头的最后一帧作为场景边界,由此完成场景分割。

优选地,镜头关键帧的语义特征向量表示为:F=(F1,F2,…,Fi,…,Fn),其中,yi表示镜头关键帧的第i个特征,Fi表示镜头关键帧经标准化后的第i个特征,n表示语义特征向量的维数。

优选地,所述利用每个镜头关键帧的语义特征向量以及镜头时序特征,计算镜头之间的距离,包括:

由得到镜头p与镜头q之间的语义特征向量之间的距离d1,其中,Fp表示镜头p关键帧的语义特征向量,Fq表示镜头q关键帧的语义特征向量,Fp(j)表示镜头p关键帧的语义特征向量中的第j个特征,Fq(j)表示镜头q关键帧的语义特征向量中的第j个特征;

由得到镜头p与镜头q之间的时序特征距离,其中,mp表示镜头p的中间帧序号,mq表示镜头q的中间帧序号,l表示待分割视频总帧数;

由D=d1+αd2得到镜头p与镜头q之间的镜头距离,其中,α表示时序特征的加权系数。

优选地,所述逐一比较镜头之间的距离,将镜头距离小于预设阈值的镜头作为同一镜头簇,最后将每个镜头簇的末尾镜头的最后一帧作为场景边界,由此完成场景分割,包括:

(1)分别将每个镜头作为一个镜头簇;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710725996.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top