[发明专利]用于标记视频片段的方法及装置有效
申请号: | 201811139639.2 | 申请日: | 2018-09-28 |
公开(公告)号: | CN109121022B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 刘霄;杨凡;文石磊;柏提;李鑫;赵翔;李旭斌;丁二锐 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | H04N21/845 | 分类号: | H04N21/845;H04N21/439 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 标记 视频 片段 方法 装置 | ||
本申请实施例公开了用于标记视频片段的方法及装置。该方法的一具体实施方式包括:从待标记视频中获取视频特征信息序列;将上述视频特征信息序列内相邻的设定数量的视频特征信息分组,得到视频特征片段序列;对于上述视频特征片段序列中的视频特征片段,将该视频特征片段导入预先训练的视频标记模型,得到对应该视频特征片段的标识信息;响应于得到对应上述视频特征片段序列的标识信息序列,通过上述标识信息序列中的标识信息对上述待标记视频的视频片段进行标记。该实施方式提高了对视频片段标记的效率和准确性。
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于标记视频片段的方法及装置。
背景技术
视频通常可以综合了图像信息和音频信息等信息,成为用户获取信息的重要信息载体。视频网站可以向用户提供海量的多种类型或内容的视频,使得用户通过视频同时获取到多种图像和音频等信息,提高了用户获取信息的有效性,有利于视频的传播。
发明内容
本申请实施例提出了用于标记视频片段的方法及装置。
第一方面,本申请实施例提供了一种用于标记视频片段的方法,该方法包括:间隔设定图像帧,分别从待标记视频中提取图像序列和对应图像序列的音频信息序列,建立图像信息序列中的图像和音频信息序列中对应图像的音频信息之间的对应关系,得到视频特征信息序列,其中,上述视频特征信息用于表征上述待标记视频的图像特征和音频特征,上述图像特征为图像包含的内容,上述音频特征为音频中特定的音频信息;将上述视频特征信息序列内相邻的设定数量的视频特征信息分组,得到视频特征片段序列;对于上述视频特征片段序列中的视频特征片段,将该视频特征片段导入预先训练的视频标记模型,得到对应该视频特征片段的标识信息,上述视频标记模型用于匹配与视频特征片段对应的标识信息,标识信息用于表征视频特征片段处于事件的开始状态、中间状态或终止状态;响应于得到对应上述视频特征片段序列的标识信息序列,通过上述标识信息序列中的标识信息对上述待标记视频的视频片段进行标记。
在一些实施例中,上述视频标记模型通过以下步骤训练得到:获取多个样本视频特征片段和对应上述多个样本视频特征片段中每个样本视频特征片段的样本标识信息;将上述多个样本视频特征片段中每个样本视频特征片段作为输入,将上述多个样本视频特征片段中每个样本视频特征片段所对应的样本标识信息作为输出,训练得到视频标记模型。
在一些实施例中,上述将上述多个样本视频特征片段中每个样本视频特征片段作为输入,将上述多个样本视频特征片段中每个样本视频特征片段所对应的样本标识信息作为输出,训练得到视频标记模型,包括:执行以下训练步骤:将上述多个样本视频特征片段中每个样本视频特征片段依次输入至初始化视频标记模型,得到上述多个样本视频特征片段中每个样本视频特征片段所对应的预测标识信息,将上述多个样本视频特征片段中每个样本视频特征片段所对应的预测标识信息与该样本视频特征片段所对应的样本标识信息进行比较,得到上述初始化视频标记模型的预测准确率,确定上述预测准确率是否大于预设准确率阈值,若大于上述预设准确率阈值,则将上述初始化视频标记模型作为训练完成的视频标记模型。
在一些实施例中,上述将上述多个样本视频特征片段中每个样本视频特征片段作为输入,将上述多个样本视频特征片段中每个样本视频特征片段所对应的样本标识信息作为输出,训练得到视频标记模型,还包括:响应于不大于上述预设准确率阈值,调整上述初始化视频标记模型的参数,并继续执行上述训练步骤。
在一些实施例中,上述将上述多个样本视频特征片段中每个样本视频特征片段依次输入至初始化视频标记模型,得到上述多个样本视频特征片段中每个样本视频特征片段所对应的预测标识信息,包括:对于上述样本视频特征片段包含的图像和对应该图像的音频信息,对该图像进行图像识别,得到对应该图像的图像内容信息,对该音频信息进行音频识别,得到对应该音频信息的音频内容信息;响应于图像内容信息序列中存在相邻两帧图像的图像内容信息不同,且音频内容信息序列中存在对应该相邻两帧图像的音频内容信息不同,确定样本视频特征片段的预测标识信息为事件的开始状态或终止状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811139639.2/2.html,转载请声明来源钻瓜专利网。