[发明专利]一种利用基于图的特定目标网络解决视频问答问题的方法及其系统有效
申请号: | 202010795120.0 | 申请日: | 2020-08-10 |
公开(公告)号: | CN111652357B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 赵洲;何金铮;顾茅 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62;G06F16/78;G06F16/332 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 基于 特定 目标 网络 解决 视频 问答 问题 方法 及其 系统 | ||
1.一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于包括如下步骤:
1)建立由跨模态编码网络和多解码网络组成的特定目标网络模型,所述的跨模态编码网络中包括一个针对特定目标的时序编码器、自注意力模块和多头注意力模块;
所述针对特定目标的时序编码器包括两个通道,第一通道由帧级特征提取层、空间图编码器、交互图编码器、语义图编码器和第一通道输出层构成;第二通道由目标级特征提取层、轨迹提取层、轨迹调整层、语义图编码器和第二通道输出层构成;
将给定的一段视频作为时序编码器两个通道的输入,采用帧级特征提取层获取视频的帧特征,采用目标级特征提取层获取每一个视频帧的目标区域特征;将帧特征和目标区域特征分别通过空间图编码器和交互图编码器进行处理,并将其输出进行融合,再采用语义图编码器获取编码后的目标通道特征;所述的空间图编码器、交互图编码器、语义图编码器在处理帧特征和目标区域特征时,以目标区域特征作为图中顶点,以帧特征作为附加信息;
通过第二通道的轨迹提取层提取目标区域特征的原始轨迹信息,并对原始轨迹信息进行调整,调整后的轨迹信息经位置编码后输入到自注意力模块,再经卷积操作和压缩操作,最后采用语义图编码器获取编码后的轨迹特征;
2)获取视频及问题语句;
对于一段视频,训练出针对特定目标的时序编码器来得到目标通道特征和轨迹特征;
对于一段视频及问题语句,分别利用自注意力模块获得问题通道特征和全局相关的帧通道特征;
3)将目标通道特征、轨迹特征、帧通道特征和问题通道特征作为多头注意力模块的输入,其中以问题通道特征作为询问序列,分别与目标通道特征、轨迹特征、帧通道特征进行自注意力操作,输出三个自注意力结果;将三个自注意力结果与问题通道特征通过级联和线性层处理后得到跨模态编码结果;
4)针对问题的不同形式构建不同的解码器,对跨模态编码结果进行解码,得到针对问题的预测答案;将获得的针对不同问题的预测答案与真实答案进行比较,更新跨模态编码网络和多解码网络的参数,得到最终的基于图的特定目标网络模型;
5)对于要预测答案的视频和问题,根据生成的最终的基于图的特定目标网络模型,得到所预测的答案。
2.根据权利要求1所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述的自注意力模块采用Transformer中的自注意力模型。
3.根据权利要求1所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述的帧级特征提取层采用ResNet网络。
4.根据权利要求1所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述的目标级特征提取层采用Mask RCNN网络。
5.根据权利要求1所述的一种利用基于图的特定目标网络解决视频问答问题的方法,其特征在于,所述空间图编码器,具体为:
获取两个目标区域之间的相对位置特征,并进行位置编码;
根据位置编码信息获得相对分数
根据相对分数进行消息传递,所述消息传递的公式为:
其中,Wsp是参数矩阵,表示第l-1层第u个顶点的特征,u表示第u个顶点,blab表示偏差,表示与顶点v相邻的顶点集合,σ表示Relu激活函数,表示第l层第v个顶点的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010795120.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种VR沉浸效果的实时评估方法和评估系统
- 下一篇:机器人臂的主动反向驱动