[发明专利]一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法有效
| 申请号: | 201910585462.7 | 申请日: | 2019-07-01 |
| 公开(公告)号: | CN110377711B | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 赵洲;孟令涛;张竹;袁晶;怀宝兴 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/738;G06F16/783 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 利用 分层 卷积 注意力 网络 解决 开放式 视频 问答 任务 方法 | ||
本发明公开了一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法。主要包括如下步骤:1)针对视频与问题,分层卷积自注意力编码器网络获取多层视频语义表达。2)对获得的视频帧的多层视频语义表达,计算损失函数并训练模型,利用训练后的分层卷积自注意力网络,对开放式长视频问答任务进行回答语句生成。相比于一般的开放式长视频问答任务解决方案,本发明对多种有效信息进行综合利用。本发明在开放式长视频问答任务中所取得的效果相比于传统的方法更好。
技术领域
本发明涉及以开放式长视频问答任务,尤其涉及一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法。
背景技术
当下,开放式长视频问答任务成为一项重要的服务,但是目前已有该项服务的效果并不是很好。
现有的技术主要是利用多模型卷积编解码器网络解决短视频问答任务。由于缺乏对长范围依赖的建模并且计算开销过大,这种方法对长视频问答任务不适用。为了克服该缺陷,本方法将利用分层卷积自注意力网络解决开放式长视频问答任务。
本发明将利用一个分层卷积自注意力编码器对长视频内容进行建模,获取长视频内容的分层结构,并获取含有问题信息的视频上下文长范围依赖信息。之后本发明利用多范围注意力解码器合并多层视频表达来生成答案。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中缺乏对长范围依赖的建模并且计算开销过大的问题,本发明提供一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法。本发明所采用的具体技术方案是:
一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法,包含如下步骤:
1、针对视频与问题语句,利用分层卷积自注意力编码器网络获取多层视频语义表达;
2、利用步骤1获取的多层视频语义表达,计算GRU注意力解码器输出向量,进一步得到分层卷积自注意力网络损失函数;
3、利用步骤2获取的分层卷积自注意力网络损失函数,对分层卷积自注意力网络进行训练,利用训练后的分层卷积自注意力网络,输入视频与对应问题语句,对开放式长视频问答任务进行回答语句生成。
进一步的,所述的步骤1具体为:
1.1针对视频,利用提前训练好的3D-Conv网络结合线性映射与位置编码器,获得视频帧表达v=(v1,v2,...,vn),其中vi代表视频中第i帧的帧表达向量,i=(1,2,...,n),n代表视频中的帧数;
1.2针对问题语句,利用提前训练好的word2vec模型获取问题语句的单词表达q=(q1,q2,...qm),其中qi代表问题语句中第i个单词的word2vec特征表达向量,m代表问题中的单词数;
1.3将问题语句的单词表达q=(q1,q2,...qm)输入到双向GRU网络中,按照如下公式获取问题语句的上下文单词表达与全局问题表达hQ,
其中代表问题语句中第i个单词的上下文单词表达,i=(1,2,...,m),m代表问题中的单词数。与分别代表正向与反向GRU计算,代表将第i个正向GRU计算的输出与第i个反向GRU计算的输出拼接,获得问题语句中第i个单词的上下文单词表达代表将第m个正向GRU计算的输出与第1个反向GRU计算的输出拼接,获得全局问题表达hQ;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910585462.7/2.html,转载请声明来源钻瓜专利网。





