[发明专利]一种基于注意力模型的视频摘要描述生成方法及装置有效
申请号: | 202110565400.7 | 申请日: | 2021-05-24 |
公开(公告)号: | CN113204670B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 赵烨;胡晓斌;胡珍珍;刘学亮;郭丹;郭艳蓉;吴乐 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/738 | 分类号: | G06F16/738;G06F16/783;G06V10/40;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京睿智保诚专利代理事务所(普通合伙) 11732 | 代理人: | 龙涛 |
地址: | 230601 安徽省合肥市蜀山*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 模型 视频 摘要 描述 生成 方法 装置 | ||
本发明公开了一种基于注意力模型的视频摘要描述生成方法及装置,其中方法包括:获取原始视频数据集及对应的视频摘要数据集并处理,提取对应视频帧的时序特征序列;将所述视频帧的时序特征序列输入到视频摘要模型中进行处理,生成对应的语义特征;对所述语义特征利用损失函数进行评价;本发明实现对视频摘要数据的处理,同时这种还能有效的保持了摘要与原视频之间语义的一致性。
技术领域
本发明涉及视频摘要技术领域,更具体的说是涉及一种基于注意力模型的视频摘要描述生成方法及装置。
背景技术
目前,视频是继文字之后的重要信息载体,承载了各式各样的视频图像信息,然而用户在面对大量的视频信息时,如何做到快速检索用户感兴趣的视频则成为比较关键的问题。因此当下急需要一种能够在不完全观看视频内容的情况下获得视频所要表达的核心内容的方法,进而为用户节省选择和浏览的时间。
但是,虽然现有的视频摘要技术已经取得巨大的成功,但是它们的研究侧重还是聚焦于视频画面上,即关注视频帧之间的多样性和代表性。虽然近些年也有不少的方法开始关注于对视频的语义分析,但这类也大都关注于用户的需求,即依据用户的爱好和查询,选取出与之匹配的摘要,这种做法虽然在某种角度推动视频摘要研究的推进,但是这些方法也仅仅考虑了图片与文本之间的关系,而忽略了视觉信息在长时间跨度范围内的时序信息和语义连续性。同时在现有数据下,并不存在具有大规模的文本标注,这些问题都影响了视频摘要描述的发展,也不能满足用户的实际需求。
因此,如何提供一种能够解决上述问题的视频摘要描述生成方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于注意力模型的视频摘要描述生成方法及装置,实现对视频摘要数据的处理,同时这种还能有效的保持了摘要与原视频之间语义的一致性。
为了实现上述目的,本发明采用如下技术方案:
一种基于注意力模型的视频摘要描述生成方法,包括:
获取原始视频数据集及对应的视频摘要数据集并处理,提取对应视频帧的时序特征序列;
将所述视频帧的时序特征序列输入到视频摘要模型中进行处理,生成对应的语义特征;
对所述语义特征利用损失函数进行评价。
优选的,所述视频摘要模型包括:摘要器、第一编码器、第一解码器、第二编码器及第二解码器;
所述摘要器、所述第一编码器、所述第一解码器、所述第二编码器及所述第二解码器依次连接。
优选的,生成对应的语义特征具体过程包括:
将所述视频帧的时序特征序列输入至所述摘要器,对所述时序特征序列中的每一帧进行预测,得到对应的重要分数;
将所述重要分数权重化,利用所述第一编码器进行编码生成潜在特征序列及每一帧对应的隐藏状态,
所述第一解码器处理所述潜在特征序列及所述隐藏状态,生成语义特征。
优选的,在利用所述第一编码器进行编码生成潜在特征序列及每一帧对应的隐藏状态时,获取注意力权重图。
优选的,生成对应的语义特征具体过程还包括:
将所述视频帧的时序特征序列输入至所述第二编码器及所述第二解码器,得到对应的原始视频数据集的语义描述,能够在获得原视频的描述之后,就可以进行伪监督学习,避免了使用人工描述带来的影响。
优选的,所述第一解码器还将原始视频数据集及对应的视频摘要数据集映射到相同的潜在语义空间中生成语义信息,引入语义一致性损失函数评价所述语义信息与所述语义特征的一致性。
优选的,对所述重要分数进行归一化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110565400.7/2.html,转载请声明来源钻瓜专利网。