[发明专利]一种融合上下文的树形视频语义索引建立方法有效
申请号: | 201410297974.0 | 申请日: | 2014-06-26 |
公开(公告)号: | CN104036023B | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 余春艳;苏晨涵;翁子林;陈昭炯 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于视频检索技术领域,实现了一种构建树形的视频语义索引的方法。所构建的视频语义索引包含了多种粒度的视频语义,而且这种语义索引融合了视频语义之间的上下文,根据上下文将不同粒度的视频语义联系起来,形成了树形的结构。利用这种方法为视频建立语义索引后,用户能够输入不同粒度的关键词检索视频,而且索引中的上下文信息能够缩小搜索空间,提高检索系统的效率。本技术的特征在于先以镜头为单位提取各个镜头的镜头语义集。然后有监督地获取视频镜头语义的上下文,并用上下文标签树表示。再结合镜头语义集和上下文信息进行场景语义的推理。最后将镜头语义集、场景语义嵌入到上下文标签树中并作为视频的索引。 | ||
搜索关键词: | 一种 融合 上下文 树形 视频 语义 索引 建立 方法 | ||
【主权项】:
一种融合上下文的树形视频语义索引建立方法,其特征在于该方法包括以下步骤:步骤1:输入n个训练视频片段videoj,j∈{1,...,n},对videoj进行预处理,然后以镜头为单位人工标注videoj各个镜头的镜头语义集,并为每类镜头语义构造镜头语义训练集以训练分类器,得到镜头语义分析器;输入m个待建立树形索引的视频片段videok,k∈{1,...,m},对videok进行预处理,利用镜头语义分析器提取videok各个镜头的镜头语义集;步骤2:以视频片段为单位,人工标注videoj中镜头语义之间的上下文,用带有上下文标签的上下文标签树LTj表示,并构建上下文训练集;训练结构化支持向量SVM‑Struct,得到上下文标签树分析器;利用上下文标签树分析器提取videok中的上下文标签树LTk;步骤3:以videoj的场景为单位人工标注场景语义,构建场景语义训练集;训练C4.5分类器,得到场景语义分析器;利用场景语义分析器提取videok中各个场景的场景语义;步骤4:将步骤1中得到的videok各镜头的镜头语义集与步骤3得到的videok各场景的场景语义嵌入到步骤2中得到的LTk对应的节点中,将带有镜头语义和场景语义的LTk的作为videok的视频索引;其中,所述步骤2按如下步骤进行:步骤3.1:从videoj各镜头的镜头语义集中提取一个镜头语义代表该镜头,然后按照时序关系组成镜头语义序列wuj;步骤3.2:人工标注wuj的上下文,并用上下文标签树LTj表示上下文信息;上下文标签树为一个五元组LTj=<L,Video,Scene,NL,P>;其中L是镜头语义标签集,其元素表示的是wuj中代表镜头的镜头语义;Video是“视频上下文”标签,所表示的上下文是其子节点共同表达这段视频的内容;Scene是“场景上下文”标签,所表示的是其子节点共同表达了这个场景的内容;NL是除Video和Scene之外的上下文标签集,其中每个元素都代表一种上下文关系;P是上下文规则集,其每个元素表示的是一条上下文规则;步骤3.3:将n个wuj和对应的上下文标签树构造成上下文训练集:context={(xj,yj)|j=1,...,n},其中xj是上下文训练集中的镜头语义序列,yj是上下文训练集中的与xj对应的上下文标签树;步骤3.4:利用上下文训练集训练结构化支持向量机SVM‑Struct,具体操作为:步骤3.4.1:构造镜头语义序列与上下文标签树的映射函数为:其中,f(xj,yj;W)=<W,ψ(xj,yj)>为判别函数,Y是xj可以构造出的所有上下文标签树的集合,W是权向量,ψ(xj,yj)是训练数据中的镜头语义序列与其对应的上下文标签树的联合特征向量;构造ψ(xj,yj)的方式如下:ψ(xj,yj)=p1a1......pNaN]]>其中pi与ai,i∈[1,N]分别是该上下文标签树的上下文规则集P中的规则和该规则对应出现的次数,N为上下文训练集中出现的上下文规则类别总数;步骤3.4.2:将训练SVM‑Struct转化为最优化问题:min12||W||2+CnΣj=1nϵj,]]>s.t.∀y∈Y/yj:<W,ψ(xj,yj)-ψ(xj,y)>≥Δ(yj,y)-ϵj---(6)]]>其中εj为松弛变量,C>0是错分样本的惩罚值,Δ(yj,y)为损失函数;令损失函数Δ(yj,y)=(1‑F1(yj,y));其中yj是上下文训练集中镜头语义序列的真实上下文标签树,y是训练过程中预测的上下文标签树,F1计算方式如下:Precision=|E(yj)∩E(y)||E(y)|]]>Recall=|E(yj)∩E(y)||E(yj)|]]>F1=2*Precision*RecallPrecision+Recall]]>其中,Precision为上下文标签中每个节点预测的准确率,Recall为上下文标签树中每个节点预测的召回率,E(yj)为yj的边集,E(y)为y的边集;步骤3.4.3:将公式(6)转化成其对偶的形式:maxαΣj,y≠yjαjy-12Σj,y≠yjz,y‾≠yzαjyαzy‾<(ψ(xj,yj)-ψ(xj,y)),(ψ(xz,yz)-ψ(xz,y))>]]>s.t∀j,∀y∈Y/yj:αjy≥0.---(7)]]>其中αjy与均是拉格朗日乘子,对于软间隔,还另外有组约束条件:∀j,nΣy≠yjαjyΔ(yj,y)≤C]]>步骤3.4.4:在上下文训练集context上计算公式(7),找到最优的一组αjy后也就确定权向量W,得到上下文标签树分析器;步骤3.5:用与步骤3.1相同的方式提取videok的镜头语义序列wuk,并将wuk输入视频上下文标签树分析器,得到wuk对应的LTk;其中,所述步骤3按如下步骤进行:步骤4.1:根据LTj中的“场景上下文”标签Scene,将每个Scene标签下的叶节点所对应的镜头作为一个完整的视频场景,实现视频的场景分割;然后以场景为单位人工对videoj的场景进行场景语义标注;步骤4.2:利用每个场景中各镜头的镜头语义集及所对应LTj中的上下文信息构造场景语义训练集;其中场景语义的特征分为两种:a.镜头语义特征:若某镜头语义出现在该场景中,令该镜头语义特征值为1,否则为0;b.上下文特征:上下文特征是两个镜头语义之间的上下文关系,镜头语义在LTj中对应一个叶节点,所以这两个镜头语义的上下文特征值为这两个叶节点最近公共祖先节点上的上下文标签;步骤4.3:以C4.5算法为分类模型,根据场景语义训练集中各个特征属性的信息增益率来选择属性作为节点,最终生成分析视频场景语义的决策树,并将这棵决策树作为场景语义分析器;步骤4.4:根据wuk的LTk,以与步骤4.1中相同的方法将videok分为若干场景,并以场景为单位提取该场景的特征向量;将videok各场景的特征向量输入场景语义分析器,得到videok各场景的场景语义;其中,所述步骤4按如下步骤进行:步骤5.1:将LTk中的每个叶节点中的镜头语义标签替换为所代表的镜头所对应的镜头语义集;步骤5.2:将LTk中的每个Scene替换为对应的场景语义;步骤5.3:将包含镜头语义与场景语义的LTk作为videok的视频索引。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410297974.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种皮带尾部成型机的冲裁头
- 下一篇:一种发酵罐用空气分布器