[发明专利]一种基于目标检测的视频摘要生成方法有效

申请号：	201810351445.2	申请日：	2018-04-19
公开（公告）号：	CN108848422B	公开（公告）日：	2020-06-02
发明（设计）人：	刘华平;刘鹤;孙富春	申请（专利权）人：	清华大学
主分类号：	H04N21/8549	分类号：	H04N21/8549;H04N21/44;G06K9/00;G06K9/62
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	廖元秋
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出一种基于目标检测的视频摘要生成方法，属于图像处理技术领域。该方法在训练阶段获取包含2种以上的目标物体的图片集作为训练数据集并进行标注，建立深度学习网络并利用训练数据集对网络进行训练，得到训练完毕的深度学习网络。在使用阶段，获取一段视频，将视频进行分帧并将视频帧输入训练完毕的网络，网络输出每一帧视频帧所包含目标物体的特征向量、目标物体对应的位置向量和包含该目标物体视频帧原图。通过对所有特征向量进行聚类，最终得到视频摘要的结果。本发明能够准确没有遗漏地选出最能代表视频内容的目标，使人们对视频内容的理解更加清晰和直观，不再局限于场景和视频大小与格式的限制。
搜索关键词：	一种基于目标检测视频摘要生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于目标检测的视频摘要生成方法，其特征在于，该方法包括以下步骤：(1)训练阶段：(1‑1)获取训练数据集并进行标注：使用包含2种以上的目标物体的图片数据集作为训练数据集，对训练数据集每张图片中的所包含的目标物体进行人工标注，该标注过程是对每张图片中包含的每个目标物体分别画出一个检测框，检测框的大小为能包含该目标物体的最小长方形框；(1‑2)构建深度学习网络；构建一个深度学习网络，该深度学习网络由五层卷积层和三层池化层组成；网络的输入为一个批次的图片，每个批次的图片数量为128张；网络的输出为每张图片中的每个目标物体分别对应的一个4096维向量代表该目标物体和一个4维向量代表该目标物体在图片中的坐标；(1‑3)利用经过步骤(1‑1)标注后的训练数据集对步骤(1‑2)建立的深度学习网络进行训练，得到训练完毕的深度学习网络；具体步骤如下：(1‑3‑1)从经过步骤(1‑1)标注后的训练数据集中随机选取一个批次的图片输入到步骤(1‑2)建立的深度学习网络中，得到输入的每张图片对应的特征图作为深度学习网络第一阶段的输出：(1‑3‑2)将(1‑3‑1)输出的每张图片对应的特征图作为深度学习网络第二阶段的输入，重新输入到第一阶段的深度学习网络中，通过设定的n个不同尺寸的候选框在特征图上滑动，将每个获选框选定的图片范围与输入图片中目标物体的位置进行重合度IoU(t,g)筛选：若IoU＞0.7，则将候选框选定的图片范围作为正样例；若IoU＜0.3，则将候选框选定的图片范围作为负样例；若0.3＜IoU＜0.7，则候选框选定的图片范围既不是正样例，也不是负样例；假设G为输入图片中目标物体的检测框集合，任意一个候选框选定的图片范围t∈T和任意一个检测框g∈G的重合度IoU(t,g)计算表达式为：(1‑3‑3)从步骤(1‑3‑2)生成的所有正负样例中，每次随机在正样例和负样例中各挑选128个样例作为训练样例进行正负样例训练；将128个正样例和128个负样例输入到损失函数中，得到对应的损失函数值，通过梯度下降法最小化函数值；损失函数为：式中，i表示在训练样例中目标物体的索引,i＝1,2，…,128，pi表示第i个训练样例是目标物体的概率，pi*表示第i个训练样例的真实标签，pi*∈{0,1}，当目标物体是正样例时，pi*为0；当目标物体是负样例时，pi*为1，ti表示第i个训练样例检测框四个坐标的向量，ti*表示代表第i个训练样例候选框的坐标向量；Lcls(,)为Softmax loss，Lreg(,)为smooth L1 loss；L(,)为损失函数；Ncls，Nreg，λ为三个常数值；其中，smooth L1 loss为：其中，x为输入的变量；(1‑3‑4)重复步骤(1‑3‑1)至(1‑3‑3)L次，L≥2000，使得训练数据集的每张图片得到对应的正样例作为候选区域；(1‑3‑5)以步骤(1‑3‑4)生成的每张图片候选区域作为输入，经过池化层输出每张图片对应的所有的目标物体候选区域，将目标物体候选区域按照Softmax分类器得到分数最高的候选区域作为最终的目标物体，得到4096维特征向量目标物体对应输入图片中的4个顶点位置并以4维向量进行表示，深度学习网络训练完毕；(2)使用阶段：(2‑1)获取任意一段视频；(2‑2)对步骤(2‑1)获取的视频进行分帧处理并按照设定的间隔标准获取视频帧，将获取的每帧视频帧存储为一个对应的691200＝360*640*3维数组，其中360*640代表视频帧的尺寸，3代表红绿蓝三种颜色通道；(2‑3)将步骤(2‑2)中得到的视频帧依次输入步骤(1)训练完毕的深度学习网络中，网络输出每一帧视频帧所包含目标物体的4096维特征向量代表该目标物体的种类、目标物体对应的4维向量代表目标物体在该帧图像中的位置、包含该目标物体的691200维向量代表包含该目标物体的视频帧原图，并分别存为三个数组，三个数组的维数分别记为：(n，4096),(n,4),(n,691200),其中n为视频中目标物体的数量；(2‑4)将步骤(2‑3)得到的所有视频帧对应的目标物体特征向量使用K‑means算法进行聚类，产生k个类及每个类对应的聚类中心x'；(2‑5)对每个聚类中心x'，找到与该聚类中心距离L2最小的特征向量，共得到k个目标物体对应的特征向量，并将k个特征向量存储到一个新的数组中，得到对应的k*4096维特征向量数组；其中L2距离的定义为：(2‑6)通过Numpy函数库中的argmin函数找到k个聚类中心对应的k个特征维向量在步骤(2‑3)得到的(n，4096)维向量中的索引值，通过索引值和步骤(2‑3)得到的(n,4)和(n,691200)数组，找到k个特征向量对应的原视频帧和在视频帧中的位置坐标，将k个特征向量对应的视频帧存储到k*691200维数组中，将k个特征向量在视频帧帧中的位置坐标存储到k*4维数组中；(2‑7)通过Numpy函数库中的reshape函数，将k*691200维数组中每个691200维向量转换成对应的uint8类型的(360，640，3)维向量，通过OpenCV库中的cvtColor函数将(360，640，3)维向量由BGR格式转化为RGB格式，最后向量通过matplotlib函数库将将k个(360，640，3)维的向量可视化，得到最终的输出结果作为步骤(2‑1)获取视频的视频摘要。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810351445.2/，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04N 图像通信，如电视
H04N21-00 可选的内容分发，例如交互式电视，VOD〔视频点播〕
H04N21-20 .专门适用于内容分发的专用服务器，例如：VOD服务器；其操作
H04N21-40 .专门适用于接收内容或者与内容交互的客户端设备，如STB[机顶盒]；相关操作
H04N21-60 .用于在服务器和客户端之间或者在远程客户端之间的视频分配的网络结构或者处理
H04N21-80 .通过内容产生器独立于分配过程实现的内容或附加数据的生成或处理；内容本身
H04N21-81 ..其单媒体部件

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于目标检测的视频摘要生成方法有效

专利文献下载