[发明专利]一种模态交互的图注意融合的教育视频问答方法及系统有效
申请号: | 202111091522.3 | 申请日: | 2021-09-17 |
公开(公告)号: | CN113837259B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 伊永菊;王文辉;佘广南;李银;梅甜 | 申请(专利权)人: | 中山大学附属第六医院 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/80;G06V10/774;G06V10/40 |
代理公司: | 广州凯东知识产权代理有限公司 44259 | 代理人: | 姚迎新 |
地址: | 510655 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 交互 注意 融合 教育 视频 问答 方法 系统 | ||
1.一种模态交互的图注意融合的教育视频问答方法,其特征在于,所述方法包括如下步骤:
获取原始教育视频素材;
对所述原始教育视频素材进行预处理得到训练数据集;
提取所述训练数据集中各个模态的特征,包括视频静态帧特征、视频动态特征、问题特征和字幕特征;
将所述视频静态帧特征、视频动态特征和字幕特征分别输入至各自对应的模态内交互模块中与所述问题特征进行第一注意力计算得到输入视频静态交互特征、输入视频动态交互特征和输入视频文本交互特征;
将输入视频静态交互特征、输入视频动态交互特征和输入视频文本交互特征输入至模态间交互模块进行第二注意力计算得到模态间交互特征;
将所述输入视频静态交互特征、输入视频文本交互特征与所述模态间交互特征输入至图注意融合模块进行融合得到最终的图注意融合的特征;
将所述最终的图注意融合的特征输入至分类器进行训练得到教育视频问答模型,并应用到实际场景中;
其中,所述将所述视频静态帧特征、视频动态特征和字幕特征分别输入至各自对应的模态内交互模块中与所述问题特征进行第一注意力计算得到输入视频静态交互特征、输入视频动态交互特征和输入视频文本交互特征包括:
通过双向循环神经网络对所述问题特征进行编码得到问题嵌入;
将所述视频静态特征、视频动态特征和字幕特征中的一个特征与所述问题嵌入进行第一逐点求和;
将求和后的特征通过三个FC全连接层进行线性变换;
将其中两个线性变换后的特征进行第一逐点求积操作,求积后进行归一化处理;
将归一化的结果与剩余一个线性变换的特征进行第二逐点求积操作;
将第二逐点求积操作后的特征与第一个FC全连接层变换之后的特征进行Concat连接操作;
将Concat连接操作的特征通过MLP前馈感知神经网络进行线性与非线性变换得到对应模态的模态内交互特征;
所述将输入视频静态交互特征、输入视频动态交互特征和输入视频文本交互特征输入至模态间交互模块进行第二注意力计算得到模态间交互特征包括:
将所述输入视频静态交互特征、输入视频动态交互特征和输入视频文本交互特征进行第二逐点求和操作;
对求和后的特征进行归一化处理;
将归一化后的特征与输入视频文本特征进行第三逐点求积操作;
将第三逐点求积操作后的特征利用两个FC全连接层进行线性变换;
将经过两个线性变换的特征进行点积操作;
将点积操作后的特征与输入视频文本特征进行第三逐点求和操作;
利用前馈神经网络MLP对第三逐点求和后的特征进行线性与非线性变换得到模态间交互特征。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始教育视频素材进行预处理得到训练数据集包括如下步骤:
在所述原始视频素材中选取若干部预设时长的原始视频数据;
将每部原始视频数据拆分成多个视频片段;
为每个所述视频片段设置预设数量的问题,并为每个问题设置预设数量的候选答案,形成多个问答对,且每个问答对仅有一个正确答案,将若干个问答对作为训练数据集。
3.根据权利要求1所述的方法,其特征在于,所述将所述输入视频静态交互特征、输入视频文本交互特征与所述模态间交互特征输入至图注意融合模块进行融合得到最终的图注意融合的特征包括:
将输入视频静态交互特征与所述模态间交互特征进行第一连接操作;
对第一连接操作后的特征进行线性变换得到线性变换后的特征以及对应的权值a1与a2;
对线性变换后的特征进行第二连接操作,并对对应的权值a1与a2进行第三连接操作;
对第二连接操作后的特征利用ReLu函数进行非线性变换;
利用矩阵相乘操作得到候选的邻接矩阵adj,通过判断阈值是否大于零,得到最终的邻接矩阵adj;
对第三连接操作后的特征进行LeakyRelu线性激活;
将线性激活后的特征与邻接矩阵adj进行第三注意力计算得到第一注意特征;
按照同样的步骤将输入视频文本交互特征与所述模态间交互特征进行第四注意力计算得到第二注意特征;
将第一注意特征和第二注意特征进行连接,连接后通过多头自注意操作进行全局注意计算,得到最终的图注意融合的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学附属第六医院,未经中山大学附属第六医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111091522.3/1.html,转载请声明来源钻瓜专利网。