[发明专利]一种多尺度双流注意力视频语言事件预测的方法及装置在审
申请号: | 202210412836.7 | 申请日: | 2022-04-19 |
公开(公告)号: | CN115019137A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 王丹力;郑楠;马鑫伟 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06V10/52;H04N21/488 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 乔慧 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 尺度 双流 注意力 视频 语言 事件 预测 方法 装置 | ||
本发明提供一种多尺度双流注意力视频语言事件预测的方法及装置,方法包括:获取原始输入数据;原始输入数据中包括一个目标视频流、目标视频流对应的字幕以及多个未来候选事件;将原始输入数据输入多尺度双流注意力视频语言事件预测模型,得到目标视频流的事件预测结果。多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块。基于此,全面的提取特征,并减少冗余特征,避免不同模态之间相互干扰造成的不利影响,有效的提高事件预测的准确率。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种多尺度双流注意力视频语言事件预测的方法及装置。
背景技术
近年来,互联网的飞速发展引发了信息的大爆炸,使得现时代又被称为信息时代。视频作为信息的最重要的、密度最大的载体,在网络中已经非常普遍。对如此海量的、与人们日常生活息息相关的数据进行分析可以产生巨大的价值,甚至带来重大的社会变革。部分视频分析技术已经在社会生活中得到了实用,如不良视频内容智能审核、视频目标检测,视频人脸识别等。但以视频问答、视频预测为代表的关于深层视频语义理解的相关研究的技术尚未得到大规模应用,原因之一是现有模型的表现太差、远达不到实际使用要求。其中,视频预测为基于视频语义理解以预测未来候选事件。
因此,如何提高视频预测的准确率是目前亟待解决的问题。
发明内容
本发明提供一种多尺度双流注意力视频语言事件预测的方法及装置,用以解决现有技术中视频预测的准确率较低的缺陷,实现提高视频预测的准确率。
本发明提供一种多尺度双流注意力视频语言事件预测的方法,包括:获取原始输入数据;其中,所述原始输入数据中包括一个目标视频流、所述目标视频流对应的字幕以及多个未来候选事件;将所述原始输入数据输入多尺度双流注意力视频语言事件预测模型,得到所述目标视频流的事件预测结果;其中,所述多尺度双流注意力视频语言事件预测模型包括多尺度视频处理模块、双流跨模态融合模块以及事件预测模块;所述多尺度视频处理模块用于基于所述目标视频流中的视频帧生成多尺度视频特征;所述双流跨模态融合模块用于基于所述字幕的特征、所述多个未来候选事件的特征以及所述多尺度视频特征,生成不同尺度的第一融合视频特征和不同尺度的第一融合字幕特征;所述事件预测模块用于基于所述不同尺度的第一融合视频特征和所述不同尺度的第一融合字幕特征分别得到事件预测结果,基于所述事件预测结果确定所述目标视频流的最终事件预测结果。
根据本发明提供的一种多尺度双流注意力视频语言事件预测的方法,所述多尺度视频特征的生成包括:
采用不同的采样步长对所述目标视频流采样得到不同采样尺度的视频帧;
对所述不同采样尺度的视频帧进行特征提取,得到多尺度视频特征。
根据本发明提供的一种多尺度双流注意力视频语言事件预测的方法,所述不同采样尺度的视频帧包括:密集采样尺度的视频帧、一般采样尺度的视频帧和稀疏采样尺度的视频帧;相应地,所述对所述不同采样尺度的视频帧进行特征提取,得到多尺度视频特征,包括:
基于所述密集采样尺度的视频帧和预训练好的SlowFast模型,得到所述密集采样尺度的视频帧的第一视频特征;
基于所述一般采样尺度的视频帧和预训练好的ResNet-152模型,得到所述一般采样尺度的视频帧的第二视频特征;
基于所述稀疏采样尺度的视频帧和预训练好的SlowFast模型,得到所述稀疏采样尺度的视频帧的第三视频特征;基于所述稀疏采样尺度的视频帧和预训练好的ResNet-152模型,得到所述稀疏采样尺度的视频帧的第四视频特征;并将所述第三视频特征和所述第四视频特征拼接得到第五视频特征;
基于所述第一视频特征、所述第二视频特征以及所述第五视频特征确定多尺度视频特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210412836.7/2.html,转载请声明来源钻瓜专利网。