[发明专利]一种基于注意力模型的视频摘要描述生成方法及装置有效
申请号: | 202110565400.7 | 申请日: | 2021-05-24 |
公开(公告)号: | CN113204670B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 赵烨;胡晓斌;胡珍珍;刘学亮;郭丹;郭艳蓉;吴乐 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/738 | 分类号: | G06F16/738;G06F16/783;G06V10/40;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京睿智保诚专利代理事务所(普通合伙) 11732 | 代理人: | 龙涛 |
地址: | 230601 安徽省合肥市蜀山*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 模型 视频 摘要 描述 生成 方法 装置 | ||
1.一种基于注意力模型的视频摘要描述生成方法,其特征在于,包括:
获取原始视频数据集及对应的视频摘要数据集并处理,提取对应视频帧的时序特征序列;
将所述视频帧的时序特征序列输入到视频摘要模型中进行处理,生成对应的语义特征;
对所述语义特征利用损失函数进行评价;
所述视频摘要模型包括:摘要器、第一编码器、第一解码器、第二编码器及第二解码器;所述摘要器、所述第一编码器、所述第一解码器、所述第二编码器及所述第二解码器依次连接;
生成对应的语义特征具体过程包括:
将所述视频帧的时序特征序列输入至所述摘要器,对所述时序特征序列中的每一帧进行预测,得到对应的重要分数;
将所述重要分数权重化,利用所述第一编码器进行编码生成潜在特征序列及每一帧对应的隐藏状态,所述第一解码器处理所述潜在特征序列及所述隐藏状态,生成语义特征;
在利用所述第一编码器进行编码生成潜在特征序列及每一帧对应的隐藏状态时,获取注意力权重图;
还包括给予一段视频的时序特征序列和一段经过编码的句子,所述第一解码器根据描述的前t个单词而调节自身,并学习预测下一个单词。
2.根据权利要求1所述的一种基于注意力模型的视频摘要描述生成方法,其特征在于,生成对应的语义特征具体过程还包括:
将所述视频帧的时序特征序列输入至所述第二编码器及所述第二解码器,得到对应的原始视频数据集的语义描述。
3.根据权利要求2所述的一种基于注意力模型的视频摘要描述生成方法,其特征在于,所述第一解码器还将原始视频数据集及对应的视频摘要数据集映射到相同的潜在语义空间中生成语义信息,引入语义一致性损失函数评价所述语义信息与所述语义特征的一致性。
4.根据权利要求1所述的一种基于注意力模型的视频摘要描述生成方法,其特征在于,对所述重要分数进行归一化处理。
5.一种基于注意力模型的视频摘要描述生成装置,其特征在于,包括:
提取模块(1),所述提取模块(1)用于生成视频帧的时序特征序列;
处理模块(2),所述处理模块(2)将所述视频帧的时序特征序列输入到视频摘要模型中进行处理,生成对应的语义特征;所述处理模块(2)包括:
模型建立单元(21),所述模型建立单元(21)用于建立视频摘要模型;所述视频摘要模型包括:摘要器、第一编码器、第一解码器、第二编码器及第二解码器;所述摘要器、所述第一编码器、所述第一解码器、所述第二编码器及所述第二解码器依次连接;
潜在特征序列生成单元(22),所述潜在特征序列生成单元(22)用于生成潜在特征序列及每一帧对应的隐藏状态;
语义特征生成单元(23),所述语义特征生成单元(23)用于处理潜在特征序列及每一帧对应的隐藏状态,生成对应的语义特征;在利用所述第一编码器进行编码生成潜在特征序列及每一帧对应的隐藏状态时,获取注意力权重图;
还包括给予一段视频的时序特征序列和一段经过编码的句子,所述第一解码器根据描述的前t个单词而调节自身,并学习预测下一个单词;
评价模块(3),所述评价模块(3)用于对所述语义特征利用损失函数进行评价。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110565400.7/1.html,转载请声明来源钻瓜专利网。