[发明专利]一种基于深度学习的端到端视频字幕生成方法在审

申请号：	202310020696.3	申请日：	2023-01-06
公开（公告）号：	CN116132756A	公开（公告）日：	2023-05-16
发明（设计）人：	冉玉婷;周明亮;房斌;魏雪凯;蒲华燕;罗均;向涛	申请（专利权）人：	重庆大学
主分类号：	H04N21/81	分类号：	H04N21/81;G06F16/783;G06N3/08;G06N3/0499;H04N21/84;H04N21/845
代理公司：	北京慕达星云知识产权代理事务所(特殊普通合伙) 11465	代理人：	李冉
地址：	400030 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习端视字幕生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度学习的端到端视频字幕生成方法，采用视觉编码器和文本编码器分别提取视觉网格特征和全局文本特征；将视觉网格特征送入局部视觉编码器得到精细的局部视觉特征；将局部视觉编码器中产生的中间特征输入到桥梁模块产生全局视觉特征；将全局视觉特征与全局文本特征一起输入到注意力机制的多模态编码器进行融合，产生多模态特征；将多模态特征输入到解码器中的预融合模块与已经生成的单词进行初步融合，生成预融合特征；将局部视觉特征输入到解码器中的交叉注意力模块与预融合特征相结合，逐字生成描述。该方法能够并行产生局部视觉特征和多模态表征，减少训练时间的同时提高建模能力，从而生成更准确的字幕描述。

技术领域

本发明涉及计算机视觉和自然语言处理领域，特别涉及一种基于深度学习的端到端视频字幕生成方法。

背景技术

在视频字幕领域，早期的工作采用了模板或固定规则的框架，但这些方法存在着灵活性低和可扩展性差的问题。因此，为了找到更灵活的解决方案，越来越多的视频字幕研究转向了神经网络方法。受机器翻译中序列转换模型的启发，研究人员将编码器-解码器结构应用于视频字幕，使其成为最近最流行的研究方法。

在现有基于编解码结构的工作中，主要包括了三类方法：一种是依靠对象检测器来提取对象的特征，然后通过构建关系图或识别对象动作来捕捉它们的时间关系；一种是捕捉视频的网格特征，并分析其时空关系；还有一种是侧重于从不同的模式信息中提取特征，而不仅仅是局部视觉信息。尽管这些方法通过采用标准的编码器-解码器结构促进了视频字幕的发展，但在高效生成视频字幕方面还存在一些不足之处。首先，物体检测器并不总是能捕获所有的物体类别，物体检测器和视觉字幕数据集之间的领域差距会影响现实环境中的性能。第二，仅仅使用视频的视觉特征作为模型输入，而忽略了其他模式的特征，生成的视频表示是不充分的。第三，现有方法中的多模态模块在特征提取中忽略了特定模态特征之间的相互关系，这阻碍了模型在推断过程中没有文字的监督下生成更精细的视觉特征。

因此，在现有编码器-解码器方法的基础上，如何在不引入复杂的计算量的情况下，提高视频字幕生成的准确率，成为该方向技术人员亟需解决的问题。

发明内容

鉴于上述问题，本发明提出了一种至少解决上述部分技术问题的基于深度学习的端到端视频字幕生成方法，该方法可实现针对于单事件视频，准确生成视频相应的字幕描述。

本发明实施例提供一种基于深度学习的端到端视频字幕生成方法，包括如下步骤：

S1、采用视觉编码器和文本编码器来分别提取视觉网格特征和文本特征；

S2、将视觉网格特征送入局部视觉编码器得到精细的局部视觉特征，其中局部视觉编码器采用基于transformer的框架，主要使用窗口注意力和滑动窗口注意力机制来对特征进行全局性的关注计算；

S3、将局部视觉编码器中产生的中间特征输入到桥梁模块产生全局视觉特征；

S4、将全局视觉特征与全局文本特征一起输入到结合了注意力机制的多模态模块进行融合，产生多模态特征；

S5、将多模态特征送入解码器中的预融合模块与已经生成的单词进行初步融合，生成预融合特征；

S6、将局部视觉特征送入解码器中的交叉注意模块与预融合特征相结合，逐字生成描述。

进一步地，所述S2包括：

将使用视觉编码器提取到的视觉网格特征经过专门的局部视觉编码器来生成细化的局部视觉特征，其中局部视觉编码器主要由四个部分组成，分别是一个基于窗口或者滑动窗口的注意力模块、两个归一化层和一个前馈神经网络。包括：