[发明专利]一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法有效

申请号：	201910585462.7	申请日：	2019-07-01
公开（公告）号：	CN110377711B	公开（公告）日：	2022-04-01
发明（设计）人：	赵洲;孟令涛;张竹;袁晶;怀宝兴	申请（专利权）人：	浙江大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/738;G06F16/783
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	郑海峰
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种利用分层卷积注意力网络解决开放式视频问答任务方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法，其特征在于包括如下步骤：

1)针对视频与问题语句，利用分层卷积自注意力编码器网络获取多层视频语义表达；

2)利用步骤1)获取的多层视频语义表达，计算GRU注意力解码器输出向量，进一步得到分层卷积自注意力网络损失函数；所述的步骤2)具体为：

2.1)将步骤1)获得的多层视频语义表达(h¹,h²,...,h^L)输入到GRU注意力解码器，得到第t步的解码器输出向量

其中，t＝(1,2,...,r)，r代表回答语句中的单词数；x_t为第t步的解码器输入向量，计算公式如下：

其中，w_t代表第t步的解码器输入单词嵌入向量，代表第t步对应的多范围视频表达，K代表提前设定好的注意力范围数，代表可训练的权重矩阵，b_g代表可训练的偏置向量，代表可训练的权重向量的转置；

2.2)根据得到的第t步的解码器输出向量按照如下公式计算得到分层卷积自注意力网络损失函数L_ML，

其中，log(·)代表自然底数对数计算，W_a代表可训练的权重矩阵，b_a代表可训练的偏置向量；

3)利用步骤2)得到的分层卷积自注意力网络损失函数，对分层卷积自注意力网络进行训练；输入视频与对应问题语句，利用训练后的分层卷积自注意力网络对开放式长视频问答任务进行回答语句生成。

2.根据权利要求1所述利用分层卷积自注意力网络解决开放式长视频问答任务的方法，其特征在于所述的步骤1)具体为：

1.1)针对视频，利用提前训练好的3D-Conv网络结合线性映射与位置编码器，获得视频帧表达v＝(v₁,v₂,...,v_n)，其中v_i代表视频中第i帧的帧表达向量，n代表视频中的帧数；

1.2)针对问题语句，利用提前训练好的word2vec模型获取问题语句的单词表达q＝(q₁,q₂,...q_m)，其中q_i代表问题语句中第i个单词的word2vec特征表达向量，m代表问题语句中的单词数；

1.3)将问题语句的单词表达q＝(q₁,q₂,...q_m)输入到双向GRU网络中，按照如下公式获取问题语句的上下文单词表达与全局问题表达h^Q，

其中代表问题语句中第i个单词的上下文单词表达，i＝(1,2,...,m)；与分别代表正向与反向GRU计算；代表将第i个正向GRU计算的输出与第i个反向GRU计算的输出拼接，获得问题语句中第i个单词的上下文单词表达代表将第m个正向GRU计算的输出与第1个反向GRU计算的输出拼接，获得全局问题表达h^Q；

1.4)将步骤1.1)得到的视频帧表达v＝(v₁,v₂,...,v_n)输入到L层卷积自注意力编码层中，所述L层卷积自注意力编码层包括L层完全相同的卷积自注意力编码层，每一层卷积自注意力编码层包括第一卷积单元、第二卷积单元、注意力分割单元和带有问题信息的自注意力单元；获得L层卷积自注意力编码层的输出向量，将L层卷积自注意力编码层的输出向量堆叠起来，进一步获得多层视频语义表达(h¹,h²,...,h^L)。

3.根据权利要求2所述利用分层卷积自注意力网络解决开放式长视频问答任务的方法，其特征在于所述步骤1.4)具体为：

1.4.1)第1层卷积自注意力编码层的输入为步骤1.1)得到的视频帧表达v＝(v₁,v₂,...,v_n)，第l层卷积自注意力编码层的输入为第l-1层卷积自注意力编码层的输出序列代表第l-1层卷积自注意力编码层的输出序列中的第i个向量，n_l-1代表第l-1层卷积自注意力编码层的输出序列长度；

1.4.2)计算第l层卷积自注意力编码层中的第一卷积单元的输出

Y＝[A；B]

其中，i＝(1,2,...,n_l-1)，l＝(1,2,...,L)，Y＝[A；B]代表将2d维的向量Y拆解为两个d维向量A与B，d代表第l-1层卷积自注意力编码层的输出序列中向量的维度，j＝(1,2,...,n_l-1)；W^l代表可训练的权重矩阵，b^l代表可训练的参数向量，代表按元素相乘计算；

1.4.3)将第l层卷积自注意力编码层中的第一卷积单元的输出输入到第l层卷积自注意力编码层中的第二卷积单元，按照步骤1.4.2)中的计算方法获得第l层卷积自注意力编码层中的第二卷积单元的输出

1.4.4)将第l层卷积自注意力编码层中的第二卷积单元的输出分割为n_l个片段，每个片段所含元素数目为H，n_l-1＝H×n_l；将n_l个片段输入到第l层卷积自注意力编码层中的注意力分割单元中，获得第l层卷积自注意力编码层中视频片段级别的表达

其中，i＝(1,2,...,n_l)，代表第i个片段的视频片段级别的表达，softmax(·)代表softmax函数计算，tanh(·)代表双曲正切函数计算，W_s¹、W_s²代表可训练的权重矩阵，b_s为可训练的偏置向量，代表可训练的权重向量的转置；

1.4.5)将步骤1.4.4)获得的第l层卷积自注意力编码层中视频片段级别的表达与步骤1.3)获得的问题语句的上下文单词表达输入到第l层卷积自注意力编码层中的带有问题信息的自注意力单元，得到第l层卷积自注意力编码层的输出序列具体步骤如下：

1.4.5.1)利用获得的第l层卷积自注意力编码层中视频片段级别的表达与问题语句的上下文单词表达按照如下公式计算得到视频到问题矩阵M，

其中，M_ij代表视频到问题矩阵M的第i行第j列元素，i＝(1,2,...,n_l)，j＝(1,2,...,m)，代表可训练的权重矩阵，b_m代表可训练的偏置向量，代表可训练的权重向量的转置；

1.4.5.2)根据视频到问题矩阵M，得到第l层卷积自注意力编码层的输出序列将L层卷积自注意力编码层的输出序列堆叠起来，进一步获得多层视频语义表达(h¹,h²,...,h^L)，

D＝M·M^T

其中，i＝(1,2,...,n_l)，矩阵D代表视频自注意力矩阵，代表对进行第l层卷积自注意力编码层中视频片段级别的表达进行聚合相加操作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910585462.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于多模态融合的视觉问答融合增强方法
下一篇：一种智能会话切换方法、装置、设备及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法有效

专利文献下载