[发明专利]基于注意力扩展编解码网络的视频摘要方法在审
申请号: | 201910319879.9 | 申请日: | 2019-04-19 |
公开(公告)号: | CN110110140A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 冀中;焦放;庞彦伟 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/738 | 分类号: | G06F16/738;G06F16/783;H04N21/8549 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 杜文茹 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于注意力扩展编解码网络的视频摘要方法:将视频摘要看作是序列到序列学习过程,并且利用视频帧间的时域相关性,将SumMe或TVSum中的原始视频通过预训练网络得到视频帧特征序列,将视频帧特征序列作为注意力扩展编解码网络中编码器网络的输入,得到视频帧的语义信息序列,再通过乘性注意力的解码网络,得到对应每一视频帧的得分;然后将所有视频帧的得分构成摘要序列,通过回顾性编码器得到摘要序列的语义信息序列,构建全局语义判别损失,引入滑动平均模型,学习摘要序列与视频帧特征序列的语义相关性,得到保留原始视频重要信息的新的摘要序列,最后通过新的摘要序列来挑选所设定最终的摘要。本发明增强了模型的鲁棒性。 | ||
搜索关键词: | 视频帧 视频帧特征 注意力 编解码 语义 语义信息 原始视频 视频 编码器 网络 滑动平均 解码网络 学习过程 训练网络 重要信息 鲁棒性 乘性 构建 时域 引入 保留 全局 学习 | ||
【主权项】:
1.一种基于注意力扩展编解码网络的视频摘要方法,其特征在于,包括:将视频摘要看作是序列到序列学习过程,并且利用视频帧间的时域相关性,将SumMe或TVSum中的原始视频通过预训练网络得到视频帧特征序列,将视频帧特征序列作为注意力扩展编解码网络中编码器网络的输入,得到视频帧的语义信息序列,再通过乘性注意力的解码网络,得到对应每一视频帧的得分;然后将所有视频帧的得分构成摘要序列,通过回顾性编码器得到摘要序列的语义信息序列,构建全局语义判别损失,引入滑动平均模型,学习摘要序列与视频帧特征序列的语义相关性,得到保留原始视频重要信息的新的摘要序列,最后通过新的摘要序列来挑选所设定最终的摘要。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910319879.9/,转载请声明来源钻瓜专利网。
- 同类专利
- 一种基于教学大纲的实验视频系统及其使用方法-201910559078.X
- 朱润威;汤鸿辉;叶文胜;潘嘉晓;黄健斌;陈修颖 - 五邑大学
- 2019-06-26 - 2019-10-25 - G06F16/738
- 本发明公开了一种基于教学大纲的实验视频系统及其使用方法,包括如下步骤:利用用户管理模块接收用户的登录参数,并根据登录参数进行用户数据的匹配,得到用户信息,有利于视频数据库进行用户信息连接;视频数据库根据用户信息提取基于教学大纲的实验视频列表,提高用户选取实验视频的速度;利用视频数据库接收用户根据实验视频列表发送的实验视频请求,并将匹配的实验视频、实验数据和购买链接信息传送到输出模块进行显示,满足用户对实验视频和实验数据的需求,提高学生对实验的兴趣,且提供的购买链接信息方便学生购买实验器材,提高学生的动手操作的机会和能力,丰富学习知识面。
- 基于视觉显著性检测与层次聚类法的视频摘要化生成方法-201910532373.6
- 金海燕;肖聪;肖照林;蔡磊;李秀秀;杨秀红 - 西安理工大学
- 2019-06-19 - 2019-10-18 - G06F16/738
- 本发明公开的一种基于视觉显著性检测与层次聚类法的视频摘要化生成方法,首先对视频进行拆帧成连续的图像序列;其次,对拆帧后的图像序列进行视觉显著性检测,得到检测后的结果图像;然后在显著性结果的基础上提取视频的关键帧,将提取的特征融合后计算相邻帧特征图像之间的欧式距离,进行初次筛选,最后在初步筛选的基础上计算对应的显著性检测图像的互信息值,根据互信息值进行分类形成新的集合,计算每一个集合中的相邻图像的互信息值,根据互信息值筛选得到视频的摘要。本发明公开的方法解决了现有方法花费过长时间浏览视频、占用较大设备存储空间的问题,同时提高了获取视频有用信息的效率。
- 展示系统-201821662310.X
- 李梁;刘晓瑜 - 深圳市杰普特光电股份有限公司
- 2018-10-12 - 2019-10-18 - G06F16/738
- 本实用新型涉及一种展示系统,包括信息采集装置、处理装置及展示装置,信息采集包括语音信息采集器,语音信息采集器与处理装置电连接,处理装置与展示装置电连接;语音信息采集器被配置为采集用户的语音信息;处理装置用于对语音信息进行识别并与预存信息进行检索匹配,以从预存信息中获取与语音信息相匹配的反馈信息;反馈信息包括反馈视频信息;展示装置被配置为显示反馈视频信息。语音信息采集器获取到用户的语音信息,然后处理装置对该语音信息进行识别并从预存信息中获取与该语音信息相匹配的反馈信息,并通过展示装置将反馈信息中的反馈视频信息显示给用户。如此,可在不同的应用场所中根据用户的不同需求进行相关信息的反馈。
- 一种动态生成视频摘要的方法及装置-201610555529.9
- 江大白;陈柏年;胡增 - 中用科技有限公司
- 2016-07-14 - 2019-09-13 - G06F16/738
- 本申请公开了一种动态生成视频摘要的方法及装置,所述方法为:提取原始视频中每一帧及其前后各n帧中的对应像素点共同构成一向量,取所述向量中元素的中位值,构成背景图像;比较原始视频中每一帧与所述背景图像中对应位置像素点的值,生成活动图及活动等级列表;比较所述活动等级列表中像素点的活动等级与设定的活动等级阈值,生成二值活动掩码函数及累计活动函数;根据所述累计活动函数生成视频摘要。所述装置包括背景图像生成模块、像素活动等级计算模块、二值活动掩码函数生成模块和视频摘要生成模块。本申请解决了传统方法易受识别和跟踪错误的影响、算法复杂度高的问题,算法复杂度低、实时性好,方便用户交互。
- 内容作者、作品评分方法、排行榜生成方法及处理终端-201910391636.6
- 朱骢 - 广州优视云集科技有限公司
- 2019-05-10 - 2019-08-27 - G06F16/738
- 本发明涉及一种内容作者、内容作品评分方法、排行榜生成方法及处理终端,所述内容作者评分方法包括如下步骤:步骤1:获取包括十个子维度的用户行为数据;步骤2:根据用户行为数据计算各个内容作者的主维度的绝对分;步骤3:将计算得到绝对分转换成各个内容作者的主维度的百分制得分;步骤4:根据百分制得分计算得出各个内容作者的评分。本发明采用包括十个子维度的用户行为数据来获得内容作者的评分,增加人为刷榜的难度,以及有效避免人为刷榜对排行榜产生的影响;采用符合用户实际观看内容作品或作者的行为进行内容作者或内容作品评分,使得内容评分结果更贴近内容作者或内容作品真实的受欢迎程度,评分结果更真实和准确。
- 交互方法、装置、计算机可读存储介质和计算机设备-201910171651.X
- 陈姿 - 腾讯科技(深圳)有限公司
- 2019-03-07 - 2019-08-23 - G06F16/738
- 本申请涉及一种交互方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取语音交互信息;确定所述语音交互信息所指向的查询意图;定位当前播放的媒体文件所对应的媒体文件标识和播放进度;按照所述查询意图,在所述媒体文件标识相应的、且在所述播放进度之前的剧情信息中进行查询得到查询结果;输出所述查询结果。本申请提供的方案可以提高交互效率。
- 基于缩略图的图片提取方法及装置-201610288762.5
- 毛金花 - 深圳英飞拓科技股份有限公司
- 2016-05-04 - 2019-08-23 - G06F16/738
- 本发明提供了一种基于缩略图的图片提取方法及装置,其中,该方法包括如下步骤:S10、获取码流中待抽取的目标图片数;S20、根据码流中的图片总数与目标图片数计算出抽样间隔、余量的图片数以及计算出拉伸余量间距;S30、判断拉伸余量间距是否小于或等于2,若是则根据拉伸余量间距从码流中抽取间隔分布的目标图片;若否则根据待抽取的目标图片数、余量的图片数与拉伸余量间距计算预丢失的图片数;S40、判断预丢失的图片数是否小于抽样间隔,并根据自减后的拉伸余量间距从码流中抽取间隔分布的目标图片。本发明能够调整从码流中选取的拉伸间距,能够提升图片的整体布局的均匀性。
- 基于注意力扩展编解码网络的视频摘要方法-201910319879.9
- 冀中;焦放;庞彦伟 - 天津大学
- 2019-04-19 - 2019-08-09 - G06F16/738
- 一种基于注意力扩展编解码网络的视频摘要方法:将视频摘要看作是序列到序列学习过程,并且利用视频帧间的时域相关性,将SumMe或TVSum中的原始视频通过预训练网络得到视频帧特征序列,将视频帧特征序列作为注意力扩展编解码网络中编码器网络的输入,得到视频帧的语义信息序列,再通过乘性注意力的解码网络,得到对应每一视频帧的得分;然后将所有视频帧的得分构成摘要序列,通过回顾性编码器得到摘要序列的语义信息序列,构建全局语义判别损失,引入滑动平均模型,学习摘要序列与视频帧特征序列的语义相关性,得到保留原始视频重要信息的新的摘要序列,最后通过新的摘要序列来挑选所设定最终的摘要。本发明增强了模型的鲁棒性。
- 用于处理视频的方法和装置-201810008174.0
- 迟至真;文石磊;刘霄;李旭斌;丁二锐 - 百度在线网络技术(北京)有限公司
- 2018-01-04 - 2019-08-09 - G06F16/738
- 本申请实施例公开了用于处理视频的方法和装置。该方法的一具体实施方式包括:通过提取目标视频的帧序列中的关键帧,以便对该关键帧进行多边形检测,而后响应于检测到该关键帧中存在多边形,将满足预设条件的多边形确定为目标多边形,然后从该帧序列中选取包含该目标多边形的帧进行针对帧中的目标多边形的信息添加处理。该实施方式实现了将信息嵌入视频的帧序列中。
- 方法、系统、服务器和客户端-201510154981.X
- 艾伦·霍格·特纳;乔纳森·理查德·索尔佩;托马斯·休·皮尔斯 - 索尼公司
- 2015-04-02 - 2019-07-02 - G06F16/738
- 本发明公开了方法、系统、服务器与客户端。描述了一种产生内容的搜索结果以显示在客户端上的方法。该方法包括:确定多个感兴趣的对象;将多个对象中的每一个的图像上载到服务器;将获取内容上载到服务器,获取内容包括多个对象;在服务器上对获取内容中的各个对象进行识别;生成指示各个所识别的对象存在于内容中的概率的置信度分数;从客户端接收对象选择,其中基于所选择的对象排列搜索结果;以及在服务器上生成搜索结果以下载到客户端供在客户端上显示,其中获取内容的表示位于所选择对象的表示与多个对象中的另一对象之间,获取内容的表示与多个对象之间的距离根据置信度分数来确定。
- 一种基于多跳注意力的视频摘要方法-201811473141.X
- 冀中;赵玉晓 - 天津大学
- 2018-12-04 - 2019-05-24 - G06F16/738
- 一种基于多跳注意力的视频摘要方法,包括:向GoogLeNet特征提取器输入视频数据集,提取视频帧深度特征;每一帧视频帧深度特征以序列的形式输入到长短期记忆网络LSTM中,得到一个分数;将分数与对应的视频帧深度特征进行加权得到的选择性特征,再输入到长短期记忆网络LSTM中进行训练,输出优化视频帧深度特征;将优化视频帧深度特征输入卷积解码器进行加强卷积,得到加强卷积的视频帧深度特征;对每个解码器层,引入单独的多跳注意力机制;引入正则LS验证视频摘要的效果。本发明充分利用数据的时序和语义信息实现紧凑全面的摘要。本发明的方法简单可行,可以用在多媒体信息处理领域中。
- 一种分布式视频摘要处理系统-201811626351.8
- 张景 - 广州烽火众智数字技术有限公司
- 2018-12-28 - 2019-05-21 - G06F16/738
- 本发明公开了一种分布式视频摘要处理系统,包括:页面交互模块,用于获取用户的操作数据,根据操作数据发起视频摘要任务;后台分析管理模块,用于根据页面交互模块发起的视频摘要任务,将视频摘要任务分解为多个子任务,并将所述多个子任务分配到多个分析节点进行分析;在多个分析节点均完成所有子任务的分析后,将多个子任务的分析结果合并为视频摘要任务的分析结果,然后将视频摘要任务的分析结果存储在结果索引文件和分析结果数据文件中。本发明通过后台分析管理模块将视频摘要任务分解为多个子任务,然后分配给多个分析节点进行分析,解决了当前视频摘要系统处理效率低下的问题。本发明可以广泛应用于视频处理领域。
- 一种显示资源的摘要图片的方法和装置-201510406142.2
- 钱良 - 无锡天脉聚源传媒科技有限公司
- 2015-07-10 - 2019-04-30 - G06F16/738
- 本发明公开了一种显示资源的摘要图片的方法和装置,其中,方法包括以下步骤:将各资源的摘要图片按行显示,其中,摘要图片的高与摘要图片对应的资源的长度相对应;判断每一行中的摘要图片是否在预设范围内对齐;将未对齐的摘要图片与相邻的摘要图片进行交换,以使摘要图片在预设范围内对齐。本发明实施例中通过将未对齐的摘要图片与相邻的摘要图片进行交换,以使摘要图片在预设范围内对齐,来避免一行中因某个摘要图片的下边缘特别高而导致的串行现象。
- 视频搜索系统和方法-201410637566.5
- 朴东俊;林廷恩;李镐正 - 韩华泰科株式会社
- 2014-11-06 - 2019-04-19 - G06F16/738
- 提供一种视频搜索系统和方法。所述视频搜索系统包括:搜索引擎,被配置为从原始视频提取与搜索条件匹配的视频数据;以及浏览引擎,被配置为基于提取的视频数据产生摘要视频,按照原始视频中的对象出现顺序以重叠方式在背景模型上渲染摘要视频中的多个对象,并显示渲染的对象。
- 一种带有徘徊异常提示的分层视频摘要方法-201510594787.3
- 杨华;卢瑞鹏;朱继;郑世宝 - 上海交通大学
- 2015-09-17 - 2019-04-19 - G06F16/738
- 本发明提供了一种带有徘徊异常提示的分层视频摘要方法,适合于视频监控场景下的海量视频快速浏览。步骤:利用高斯混合模型对输入视频进行背景训练和前景检测;基于前景对运动的行人进行跟踪,获取每个行人跟踪的数据集;针对行人跟踪数据集进行特征提取,包括人脸检测、亮度计算和视觉注意力计算;最小化视频层次的能量函数,在每个行人数据集中筛选出一个最具代表性的图像,融合到背景图像上,形成视频层次的视频摘要;根据行人跟踪信息,进行运动轨迹的拟合及运动方向的判断;判断是否有徘徊行为发生;最小化行人层次的能量函数,从行人跟踪数据集中筛选出最具代表性的几张图片;将行人的多种信息融合到背景图像上,生成行人层次的摘要。
- 智能图像处理系统-201811541358.X
- 郝磊 - 台州三石量子科技有限公司
- 2018-12-17 - 2019-04-16 - G06F16/738
- 本发明公开了一种智能图像处理系统,其包括智能视频处理系统及智能视频云处理平台,所述智能视频处理系统包括数据访问层、业务逻辑层和表现层;所述数据访问层包括存储数据的数据库和视频及元数据存储服务器;所述业务逻辑层包括智能视频管理服务器、转码摘要处理服务器及地图服务器,所述表现层为最终用户使用的客户端,其包含案件管理、资料管理、案件审看、用户管理及系统管理,其界面采用WPF界面库;所述智能视频云处理平台用以在浏览器上实现视频的上传、转码、审看、浏览和下载由智能终端生成的图片、视频线索。优点是:本发明对案件的管理查看较为便捷顺畅及能提高工作效率。
- 基于视频监控的视频分析系统和视频分析方法-201780052466.8
- 谭志明;王琪 - 富士通株式会社
- 2017-02-15 - 2019-04-16 - G06F16/738
- 本申请实施例提供一种基于视频监控的视频分析系统和视频分析方法,视频分析系统包括:视频监控子系统,其用于进行拍摄以获得视频监控图像;视频分析子系统,其用于对所述视频监控子系统所获得的所述视频监控图像进行分析;信息发布子系统,其用于对视频监控图像,以及分析结果进行发送。根据本实施例,能够自动对视频分析系统所获取的视频监控图像进行分析并将分析结果发送给用户,由此,提高了视频监控的自动化程度和效率,降低了人工成本。
- 一种视频搜索结果展示方法及装置-201410837351.8
- 李伟;陈英傑 - 北京奇艺世纪科技有限公司
- 2014-12-29 - 2019-04-12 - G06F16/738
- 本发明实施例公开了一种视频搜索结果展示方法及装置,一种视频搜索结果展示方法,包括以下步骤:接收当前用户的视频搜索请求;根据视频资源与所述搜索关键词的匹配度,确定待展示视频资源的初始排序分数;获得所述当前用户的历史行为数据;确定所述当前用户对不同类型视频的喜好程度;确定每个待展示视频资源对应的修正因子;利用公式:初始排序分数×修正因子,分别计算得到每个待展示视频资源的修正分数;对所述待展示视频资源进行排序,将排序结果作为搜索结果进行展示。应用本发明实施例所提供的技术方案,针对不同用户对不同类型视频的喜好,对具有相同搜索关键词的搜索请求返回不同的搜索结果并展示,方便用户查找,可以提升用户体验。
- 一种基于动态图着色的在线视频浓缩方案-201811056050.6
- 韦世奎;阮涛;赵耀 - 北京交通大学
- 2018-09-11 - 2019-03-29 - G06F16/738
- 本发明提供一种基于动态图着色的在线视频浓缩方案,属于视频信号处理、图像处理、安全监控领域。本发明提出一种视频浓缩的新模型,并根据此模型提出一种基于动态图着色的新型组合优化目标,最后基于上述两者提出一种在线的动态图着色的新型组合优化方案。本发明的显著优势在于,统一视频浓缩的在线模型和离线模型为一种通用模型,并且在保证实时性和低运存消耗的情况下,能够稳定地得到高压缩率、高信息保留率的浓缩视频。
- 多媒体资源展示方法及装置-201811101771.4
- 季熙;薛俊强 - 传线网络科技(上海)有限公司
- 2018-09-20 - 2019-02-19 - G06F16/738
- 本公开涉及一种多媒体资源展示方法及装置。所述方法包括:在检测到展示界面中的进度条受到朝向目标方向的滑动操作时,根据目标方向和滑动操作的滑动距离中的至少一种以及目标多媒体资源的视频帧缩略图当前的第一展示密度,确定展示目标多媒体资源的视频帧缩略图的第二展示密度;以第二展示密度展示目标多媒体资源的视频帧缩略图。根据本公开的实施例,可在进度条受到朝向目标方向的滑动操作时,对目标多媒体资源的视频帧缩略图的展示密度进行调整,提高了调整视频帧缩略图的展示密度的便利性。
- 一种视频摘要模块处理方法-201811293410.4
- 蔡昭权;蔡映雪;胡辉;胡松;陈伽;黄思博;黄翰;梁椅辉;罗伟 - 惠州学院
- 2018-11-01 - 2019-02-19 - G06F16/738
- 本发明公开了一种视频摘要模块处理方法,包括视频素材,视频素材的输出端与预处理单元的输入端连接,预处理单元的输出端与第一次用户选择确认单元的输入端连接,第一次用户选择确认单元的输出端与视频分割单元的输入端连接,所述视频分割单元的输出端分别与第一提取单元、第二提取单元和第三提取单元的输入端连接,涉及视频摘要技术领域。该视频摘要模块处理方法,对视频素材进行多级处理,并且可以根据用户选择进行摘要生成,分类进行处理,处理十分方便,同时根据不同的要求进行不同的摘要生成,组合度较高,分类对视频进行提取,以便通过背景、动作和声音的不同组合生成不同的摘要,摘要的生成范围广,便于多场景使用。
- 专利分类