[发明专利]视频切分方法、装置、设备及存储介质在审
申请号: | 202010820732.0 | 申请日: | 2020-08-14 |
公开(公告)号: | CN114120161A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 董琦聪 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40 |
代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 袁义科 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 切分 方法 装置 设备 存储 介质 | ||
1.一种视频切分方法,其特征在于,包括:
基于视频中的至少一部分视频帧的第一模态数据对所述至少一部分视频帧进行目标事件的第一检测处理,得到第一检测结果;
基于所述至少一部分视频帧的第二模态数据对所述至少一部分视频帧进行所述目标事件的第二检测处理,得到第二检测结果;
基于所述第一检测结果和所述第二检测结果,从所述至少一部分视频帧中确定出发生所述目标事件的目标帧;
基于所述目标帧对所述视频进行切分,得到发生所述目标事件的视频片段。
2.根据权利要求1所述的方法,其特征在于,所述目标事件包括发言事件;
所述第一检测结果和所述第二检测结果用于指示视频帧中有人发言的概率。
3.根据权利要求2所述的方法,其特征在于,所述第一模态数据为图像数据。
4.根据权利要求3所述的方法,其特征在于,所述基于视频中的至少一部分视频帧的第一模态数据对所述至少一部分视频帧进行目标事件的第一检测处理,得到第一检测结果,包括:
对所述至少一部分视频帧的图像进行人脸检测处理,得到包括人脸的第一视频帧和不包括人脸的第二视频帧;
对所述第一视频帧进行发言人检测处理,得到所述第一视频帧中有人发言的概率;
确定所述第二视频帧中有人发言的概率为0。
5.根据权利要求4所述的方法,其特征在于,所述对所述第一视频帧进行发言人检测处理,包括:
对所述第一视频帧进行人脸识别处理,得到所述第一视频帧上的人脸识别框;
在所述人脸识别框中进行发言人检测处理。
6.根据权利要求2所述的方法,其特征在于,所述第二模态数据为音频数据。
7.根据权利要求6所述的方法,其特征在于,所述基于所述至少一部分视频帧的第二模态数据对所述至少一部分视频帧进行所述目标事件的第二检测处理,得到第二检测结果,包括:
对所述至少一部分视频帧的音频数据进行人声检测处理,得到各视频帧有人发言的概率。
8.根据权利要求2所述的方法,其特征在于,所述基于所述第一检测结果和所述第二检测结果,从所述至少一部分视频帧中确定出发生所述目标事件的目标帧,包括:
针对所述至少一部分视频帧中的每个视频帧,将所述视频帧对应的第一检测结果和第二检测结果进行加权求和处理,得到对应的加权求和结果;
将所述至少一部分视频帧中对应所述加权求和结果大于预设阈值的视频帧确定为目标帧。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述基于所述目标帧对所述视频进行切分,得到发生所述目标事件的视频片段,包括:
响应于两个目标帧之间的非目标帧的数量小于预设数量,将所述两个目标帧切分到同一个视频片段中;
响应于两个目标帧之间的非目标帧的数量大于所述预设数量,将所述两个目标帧切分到两个不同的视频片段中。
10.根据权利要求1-8中任一项所述的方法,其特征在于,在得到所述视频片段后,所述方法还包括:
将所述视频片段中的音频数据转换成文本数据,并对所述文本数据进行主题抽取处理;
根据所述文本数据中的主题,对所述视频片段进行切分。
11.根据权利要求1-8中任一项所述的方法,其特征在于,在得到所述视频片段后,所述方法还包括:
对所述视频片段中的发言人进行聚类处理;
根据聚类结果对所述视频片段进行切分处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010820732.0/1.html,转载请声明来源钻瓜专利网。