[发明专利]一种基于瞳孔尺寸的人机协作视频摘要方法在审
| 申请号: | 202211231244.1 | 申请日: | 2022-10-09 |
| 公开(公告)号: | CN115658963A | 公开(公告)日: | 2023-01-31 |
| 发明(设计)人: | 马海钢;郑婧;孙一帆 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06F16/738 | 分类号: | G06F16/738;G06F16/735;G06F16/783;G06F3/01;G06V20/40;G06V10/82;G06N3/0464;G06N3/0455;G06N3/0442;G06N3/047;G06N3/048;G06N3/084;G06N3/09 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 王琛 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 瞳孔 尺寸 人机 协作 视频 摘要 方法 | ||
1.一种基于瞳孔尺寸的人机协作视频摘要方法,包括如下步骤:
(1)对被试者进行眼动追踪实验,获取被试者观看的视频文件,并记录观看过程中被试者的实时瞳孔尺寸数据;
(2)将视频文件分解成视频帧序列,使用预训练的卷积神经网络对视频帧序列进行深度特征提取,得到视频帧深度特征序列X;
(3)根据所述实时瞳孔尺寸数据通过计算得到注意分数序列AS以及瞳孔扩张信息序列PD;
(4)根据上述步骤对不同被试者进行多次测试以获取多组样本,并将所有样本分为训练集和测试集,每组样本包括视频帧深度特征序列X、注意分数序列AS以及瞳孔扩张信息序列PD;
(5)采用GRU搭建基于Encoder-Decoder结构的视频摘要模型,其包括编码器、解码器以及注意力机制模块,其中所述编码器用于对输入的视频帧深度特征序列X进行编码,输出编码结果E;所述注意力机制模块以视频位置编码信息来增强局部注意力,以瞳孔扩张信息序列PD来增强全局注意力,输出注意力权重分数Attention;所述解码器以E与Attention相加后的结果Z作为输入,学习视频帧与注意分数之间的依赖关系,从而预测出与视频帧序列对应的注意分数序列Y;
(6)将训练集样本中的X和PD作为模型输入,AS作为标签,从而对视频摘要模型进行训练;
(7)将测试集样本中的X和PD输入至训练好的视频摘要模型中,即可预测得到对应的注意分数序列Y,进而根据该序列选择关键镜头并合成为视频摘要。
2.根据权利要求1所述的人机协作视频摘要方法,其特征在于:所述步骤(3)的具体实现方式为:首先将观看过程中被试者的实时瞳孔尺寸数据转换成与视频帧序列对应的瞳孔尺寸序列P={p1,p2,…,pt,…,pN};然后通过以下公式计算得到对应的注意分数序列AS={AS1,AS2,…,ASt,…,ASN}以及瞳孔扩张信息序列PD={PD1,PD2,…,PDt,…,PDN};
PDt=pt-pt-1
其中:pmax和pmin分别为瞳孔尺寸序列P中的最大值和最小值,pt表示被试者看到第t帧图像时的瞳孔尺寸大小,t为自然数且1≤t≤N,N为视频文件的总帧数。
3.根据权利要求1所述的人机协作视频摘要方法,其特征在于:所述注意力机制模块包含两条不同的处理机制,一条为眼动数据指导的全局多头注意机制,另一条为视频位置编码信息指导的局部多头注意机制,两条处理机制的输出相加即为注意力权重分数Attention。
4.根据权利要求3所述的人机协作视频摘要方法,其特征在于:所述全局多头注意机制利用多个查询,平行地计算从输入序列X中选取的多个信息,各个平行的全局注意结构关注序列X的不同子空间上的向量,然后进行拼接,最终得到多头注意情况下的全局注意权重分数Multi-AttentionGlobal,整体计算过程如下:
其中:分别表示全局的第i个子空间对应的查询向量、键向量、值向量,分别表示全局的第i个子空间对应的查询向量权值、键向量权值、值向量权值,为第i个子空间输出的注意权重分数,为全局点乘权重,dk为GRU的隐藏单元数量,*为数乘符号,T为转置符号,Concact()为拼接操作,softmax()为Softmax函数,i为自然数且1≤i≤numhead,numhead为多头注意机制的子空间数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211231244.1/1.html,转载请声明来源钻瓜专利网。





