[发明专利]一种模态交互的图注意融合的教育视频问答方法及系统有效
申请号: | 202111091522.3 | 申请日: | 2021-09-17 |
公开(公告)号: | CN113837259B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 伊永菊;王文辉;佘广南;李银;梅甜 | 申请(专利权)人: | 中山大学附属第六医院 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/80;G06V10/774;G06V10/40 |
代理公司: | 广州凯东知识产权代理有限公司 44259 | 代理人: | 姚迎新 |
地址: | 510655 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 交互 注意 融合 教育 视频 问答 方法 系统 | ||
本申请提供了一种模态交互的图注意融合的教育视频问答方法及系统,本申请通过对原始教育视频素材进行预处理得到训练数据集;提取训练数据集中各个模态的特征,将视频静态帧特征、视频动态特征和字幕特征分别输入至模态内交互模块中得到模态内交互特征;将各模态内交互特征输入至模态间交互模块得到模态间交互特征;将输入视频静态交互特征、输入视频文本交互特征与模态间交互特征输入至图注意融合模块进行融合得到最终的图注意融合的特征;将最终的图注意融合的特征输入至分类器进行训练得到教育视频问答模型模型,并应用到实际场景中。本申请能够提取视频中更加精确的信息,提高用户和视频的交互效果以及用户理解视频的效率。
技术领域
本申请涉及视频处理技术领域,尤其涉及一种模态交互的图注意融合的教育视频问答方法及系统。
背景技术
视频已经成为当前最主要的多媒体信息载体,并广泛应用于人们生活中,例如不同的在线教育视频如慕课网教育视频、优酷网教育视频等等,因其具备时空维度的特征,使其具有信息密度大、类别多样、内容多变、结构复杂等特点,使得人们在观看教育视频时,不能够很好的抓住视频中的重点,并且人们会对看完的视频存在一些疑问,导致不能够快速理解视频内容。
现有技术中,一般通过视频问答的形式,增加用户与视频的交互,进而帮助人们快速理解视频内容,提高人们观看教育视频的效率。视频问答是一种细粒度的视频理解方法,视频问答是给定模型一个问题与相关的视频,模型通过对问题的理解,找到视频中与问题相关的模态信息,并生成一个自然语言的答案或者答案索引。
通过研究相关文献,视频问答方法共分为基于规则的视频问答方法与基于深度学习的视频问答方法,其中基于规则的视频问答方法最早开始于2003年,早期的视频问答方法将其作为查询内容,问题作为查询子,以检索的方式去定位相关的视频内容信息。研究的对象主要集中在新闻视频领域,并采用视频内容结构化的方式来建模视频内容,并利用HMM来构建推理机制,视频问答从视频中获取信息是重要的和有价值的,特别是因为现在有大量的视频被制作。
基于深度学习的视频问答方法最早开始于2016年,其构建了一个关于电影题材的视频问答数据集,使得视频问答的研究再一次成为新热点,研究对象主要集中在相应的数据集上,而由于视频问答因其时空特性,使得构建视频问答数据集成为一项具有挑战的任务,从而延缓了视频问答领域的进展,主要的研究方法是采用深度学习的方法来主动学习与问题相关的视频内容。近些年随着数据集的逐步完善,视频问答研究也有了新的进展。有的工作在空间注意力和时间注意力上做了探索,有的则在静态特征和动态特征融合方面有了突破,还有的拓展了视觉问答中的动态记忆网络模型。这些网络能较好地提取有用的视频信息并进行交互,取得了不错的性能。
例如,现有技术提出一种注意力转移网络,由以下组件组成:(a)利用BERT进行嵌入视频和文本的表示,(b)矩建议网络定位回答问题感兴趣的时间矩,(c)异构网络推理推断出正确答案基于定位的时间矩,(d)根据不同的重要性调制重要性权重的(b)和(c)的输出。该模型通过结合self-attention与co-attention的方式构建异构注意推理机制,缓解了模态内与模态间融合的问题,并利用重要性调制来动态的缓解问题类型不同对应的模型信息不同的问题。
但由于处理的领域不同于现有教育视频的领域,因此导致迁移过来的模型,性能较低,并且由于缺少对静态与动态时空特征注意的融合,导致最后的性能提升并不明显。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学附属第六医院,未经中山大学附属第六医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111091522.3/2.html,转载请声明来源钻瓜专利网。