[发明专利]一种基于全局视频特征的密集视频字幕生成方法在审

申请号：	202210801636.0	申请日：	2022-07-08
公开（公告）号：	CN115190332A	公开（公告）日：	2022-10-14
发明（设计）人：	徐颂华;刘安然;周林韵;李宗芳;徐宗本	申请（专利权）人：	西安交通大学医学院第二附属医院
主分类号：	H04N21/234	分类号：	H04N21/234;H04N21/44;H04N21/488;H04N5/278;G06V10/762;G06V10/764;G06V10/82
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	姚咏华
地址：	710004 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于全局视频特征密集字幕生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于全局视频特征的密集视频字幕生成方法，本发明通过自适应聚类的方法在只输入整段视频的情况下编码其全局特征，进而以端到端的方式指导事件定位和字幕生成，略去了先前模型利用先验阈值进行事件提案划分的步骤，从而在保证字幕生成准确性的条件下大大降低了计算复杂度。本发明在处理长序列特征时能够自适应地将相近的特征查询聚类进而降低冗余，节省内存。同时，作为传统Transformer中完整自注意力机制的快速近似，该方法在编码准确性方面也表现优异。

技术领域

本发明属于视频特征提取领域，具体涉及一种基于全局视频特征的密集视频字幕生成方法。

背景技术

随着多媒体平台的快速发展，越来越多的人们习惯从视频中获取信息。平均每天有数以千万计的视频被上传到互联网，而审核这些视频会消耗大量的时间。因此为视频自动生成描述性字幕的工作变得十分有价值，这不仅可以大大减少视频审核的时间，还可以借助语音朗读软件为视障患者获取信息。但是通常一个视频中包含多个相互关联的事件，只为视频生成单个的简短描述会丢失大量的信息，因此密集视频字幕生成任务应运而生。总的来说，该任务旨在对视频包含的每个事件进行定位并为其生成对应的字幕，整个过程主要包括两个子任务，即事件定位和字幕生成。而一个有竞争力的密集视频字幕生成模型应该在两个子任务上均具有良好的表现。

现有的工作通常采用“事件定位-字幕生成”的串联式两阶段方案，该方案通常需要引入先验阈值对众多事件提案进行筛选，从而不可避免地增加了计算量和内存消耗；另外，该方案所生成的字幕质量严重依赖于事件定位的准确性，导致模型的性能很不稳定。

发明内容

本发明的目的在于克服上述不足，提供一种基于全局视频特征的密集视频字幕生成方法，能够确保生成的视频字幕准确性的前提下尽可能提升计算效率。

为了达到上述目的，本发明包括以下步骤：

运用预训练的动作识别网络提取视频的初级编码特征；

对初级编码特征进行处理，确定视觉中心和权重后再进行若干层堆叠，得到全局特征编码；

将全局特征编码作为指导，使用并行多头解码器来进行事件个数预测、事件定位以及字幕生成，最终生成视频字幕。

提取视频的初级编码特征通过C3D模型、双流网络结构或时间敏感视频编码器。

得到全局特征编码的具体方法如下：

使用局部敏感哈希方法对初级编码特征中的视频特征进行处理，确定视频特征的视觉中心；

查询每一组视频特征，得到具有最高关注度的前k个视频特征键并确定权重；

重复上述步骤对所有编码的视频特征的赋予权重，得到全局特征编码。