[发明专利]一种基于瞳孔尺寸的人机协作视频摘要方法在审
| 申请号: | 202211231244.1 | 申请日: | 2022-10-09 |
| 公开(公告)号: | CN115658963A | 公开(公告)日: | 2023-01-31 |
| 发明(设计)人: | 马海钢;郑婧;孙一帆 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F16/738 | 分类号: | G06F16/738;G06F16/735;G06F16/783;G06F3/01;G06V20/40;G06V10/82;G06N3/0464;G06N3/0455;G06N3/0442;G06N3/047;G06N3/048;G06N3/084;G06N3/09 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 王琛 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 瞳孔 尺寸 人机 协作 视频 摘要 方法 | ||
本发明公开了一种基于瞳孔尺寸的人机协作视频摘要方法,基于观众自发性的非语言反应和他们在观看视频时的实时注意力变化之间存在密切联系的理论,利用瞳孔光反应可被用于指示视频中更吸引人的部分且数据易于获取的特点,制作了感知驱动的视频数据集,为视频摘要模型学习观众实时的、动态的注意机制提供依据。本发明使用由编码器‑解码器模块、注意力机制模块和关键帧选取模块组成的人机协作的视频摘要框架,它能够有监督地学习视频特征与观众对视频的注意力的关系,最终得到可根据原始视频自动生成摘要的注意驱动的视频摘要模型。
技术领域
本发明属于数字视频处理技术领域,具体涉及一种基于瞳孔尺寸的人机协作视频摘要方法。
背景技术
随着近几年互联网技术和视频设备的发展,各类平台上的数字视频的数据量呈现出爆炸式增长的趋势。根据OMNICORE统计与行业洞察,每分钟有超过500小时的内容上传到YouTube,人们每天观看总和时长超过10亿小时的视频。因此,如何帮助用户快速、有效地从海量视频中选出他们感兴趣的内容便成为一个越来越具有挑战性的问题。
视频摘要技术被完成解决上述问题,视频摘要又称视频总结,是视频内容的简要概括;视频摘要技术通过捕捉原始视频中重要的、具有代表性的信息,来产生一系列的视频帧或者视频片段,为用户提供一种快速且内容较为全面的视频浏览方式。近些年来,注意力机制被广泛地应用在计算机视觉任务中,并取得了许多重要的突破;从本质上讲,人类观众是视频摘要的最终对象和消费主体,观众的注意机制和观看习惯对捕捉原始视频中关键的、有趣的信息具有重要意义。基于以上两点,在视频摘要领域引入注意机制是自然而然且有极大潜力的。
获取视频中每一帧的重要性分数是视频摘要技术中的一个关键性环节,重要性分数表征视频帧包含信息的重要性和代表性,是后续的关键帧选取环节的基础。当前主流的基于深度学习的视频摘要算法大多利用GRU来建模视频帧之间的时序信息,从而得到视频帧的长时序深度特征,并用其来回归每一帧的重要性得分。将人类观众的注意力机制引入到视频摘要方法中,为视频帧分配不同的重要权重,从而调整各帧的重要性分数,这样就建立了摘要方法选出的视频关键帧与观众对视频内容的兴趣的内在联系,使得生成的摘要能有效提升观众的观看体验。
目前已有不少学者尝试在视频摘要领域引入注意机制,取得了足有成效的成果,如Ma等人文献在《A user attention model for video summarization[C]//Proceedingsof the tenth ACM international conference on Multimedia.2002:533-542》中提出了一种基于计算性视听注意力模型的视频摘要技术,通过使用计算性的人类注意模型填补视频摘要中对复杂启发式规则的需求,具体来说,该方法对观众在观看视频节目时的注意力是如何被动作、物体、声音和语言所吸引的进行建模,设计了一种基于视听建模方法的视频摘要技术。又如Ji及其同事在文献《Video summarization with attention-basedencoder–decoder networks.IEEE Transactions on Circuits and Systems for VideoTechnology.30(6):1709-17(2019)》中首先提出了一种基于注意力的、使用编码器-解码器网络的视频摘要方法,该方法引入了自然语言处理领域的注意力机制,通过在视频摘要框架中插入中间注意层,以模仿人类选择关键帧的方式。Fajtl等人在文献《Monekosso D,Remagnino P.:Summarizing Videos with Attention.In:Computer Vision–ACCV2018Workshops,pp.39-54.Springer International Publishing.(2019)》提出了一种以注意机制作为计算分析的核心的视频摘要方法,该方法通过应用概念简单、计算效率高的软性自我注意机制来避免对计算力要求较为苛刻的LSTM的使用,其视频摘要网络仅由一个自注意机制结构和一个用于回归帧重要性分数的两层全连接网络组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211231244.1/2.html,转载请声明来源钻瓜专利网。





