[发明专利]一种基于深度学习的视频时刻检索方法与系统在审
| 申请号: | 202210393679.X | 申请日: | 2022-04-15 |
| 公开(公告)号: | CN114896450A | 公开(公告)日: | 2022-08-12 |
| 发明(设计)人: | 周凡;黎金宇;林格;林淑金 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G06F16/732 | 分类号: | G06F16/732;G06F16/78;G06F40/216;G06N3/04;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 510006 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 学习 视频 时刻 检索 方法 系统 | ||
本发明公开了一种基于深度学习的视频时刻检索方法与系统。包括:从Charades‑STA数据集筛选并输入视频片段和查询文本;提取视频特征和文本特征;利用Bi‑LSTM和多头注意力机制获取查询的句子级特征和视频的全局特征;利用Transformer将获取的各组特征分别进行对齐;修正全局的视频‑文本语义表示;将所述修正后的视频‑文本全局语义注入软注意力时序定位回归网络,回归目标视频片段的精确位置。本发明基于深度学习的方法,设计了一个多层次视频‑文本语义对齐网络,通过多头注意力机制、Transformer等结构,分别提取视频和文本的局部和全局特征,之后再利用局部特征来修正全局特征,并对视频和文本的局部、全局特征很好地进行了对齐,能够很好地提高视频时刻检索的精度。
技术领域
本发明涉及计算机视觉,视频检索领域,具体涉及一种基于深度学习的视频时刻检索方法与系统。
背景技术
随着信息时代的飞速发展,每天都有大量的新闻、体育、教育类等视频涌现,而很多信息对用户而言是不必要的。此外,在一些应用领域例如视频监控领域,用户需要在海量的视频数据中快速过滤掉绝大部分无用的视频信息。在这样一个庞大的视频语料库中精确检索到用户想要的视频信息难度非常之大,但又是用户迫切需求的,而现在大部分主流视频网站(bilibli,youtube等)都只能根据查询词返回一系列相关视频,并且存在定位不准、冗余视频多等问题。
于是视频时刻检索技术便应运而生,对于一个给定的视频,用户输入一句查询词,便可返回查询词对应的起始和结束时刻,定位到视频中的具体片段,方便用户更好的检索到自己想要的内容。之前方法通常为预定义的动作列表训练分类器,并以滑动窗口的方式应用它们,给视频中各个动作分类从而完成定位。但是动作包括主语、动词和宾语三个变量,在现实世界中对应各式各样的复杂情况,因此设计一个合适的满足用户需求的活动列表是很困难的。
近年来,深度学习技术蓬勃发展,有方案提出将其结合到视频时刻检索上,首先搜集大量的视频,将视频分为多个片段,每个片段都与一个或多个同义查询词对应,将视频片段-查询作为一个样本对放到神经网络中来训练数据,达到时刻检索的目的。目前的视频时刻检索技术受限于人工智能相关技术的发展,返回的结果往往不太准确,精度仍然不能让用户满意。
目前的现有技术之一,“一种基于时间回归网络来细化时间边界的视频时刻检索方法”,该方法提取视频和文本的特征后,将其进行加、乘、全连接后拼接在一起,最后计算出回归分数。该方法的缺点是网络过于简单,最后检索结果的准确度不高。
目前的现有技术之二,“一种学习了视频时间上下文特征和文本特征的共同嵌入表示的视频时刻检索方法”,该方法中视频时间上下文特征集成了局部视频特征(反映特定时刻发生了什么)、全局特征(提供特定时刻的上下文)和时间端点特征(表明某个时刻在视频中发生),并且同时考虑了外观和光流输入模态。该方法的缺点是无法在视频中定位复杂的句子结构。
目前的现有技术之三,是用预先定义的活动列表来训练分类器,根据输入查询句的动作类别进行分类定位到相关位置。该方案的缺点是预定义各式各样复杂的动作列表非常困难。
发明内容
本发明的目的是克服现有方法的不足,提出了基于深度学习的视频时刻检索方法与系统。本发明解决的主要问题是,现有基于预定义活动列表的视频时刻检索方法无法准确定义现实世界中各式各样的活动;现有基于深度学习的视频时刻检索方法,准确度普遍低于用户预期。即如何基于深度学习,增强提取特征的全局语义相关性,从而提高视频时刻检索精确度的问题。
为了解决上述问题,本发明提出了一种基于深度学习的视频时刻检索方法,所述方法包括:
从Charades-STA数据集筛选并输入视频片段和查询文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210393679.X/2.html,转载请声明来源钻瓜专利网。





