[发明专利]一种融合上下文的树形视频语义索引建立方法有效

专利信息
申请号: 201410297974.0 申请日: 2014-06-26
公开(公告)号: CN104036023B 公开(公告)日: 2017-05-10
发明(设计)人: 余春艳;苏晨涵;翁子林;陈昭炯 申请(专利权)人: 福州大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 福州元创专利商标代理有限公司35100 代理人: 蔡学俊
地址: 350108 福建省福州市*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融合 上下文 树形 视频 语义 索引 建立 方法
【权利要求书】:

1.一种融合上下文的树形视频语义索引建立方法,其特征在于该方法包括以下步骤:

步骤1:输入n个训练视频片段videoj,j∈{1,...,n},对videoj进行预处理,然后以镜头为单位人工标注videoj各个镜头的镜头语义集,并为每类镜头语义构造镜头语义训练集以训练分类器,得到镜头语义分析器;输入m个待建立树形索引的视频片段videok,k∈{1,...,m},对videok进行预处理,利用镜头语义分析器提取videok各个镜头的镜头语义集;

步骤2:以视频片段为单位,人工标注videoj中镜头语义之间的上下文,用带有上下文标签的上下文标签树LTj表示,并构建上下文训练集;训练结构化支持向量SVM-Struct,得到上下文标签树分析器;利用上下文标签树分析器提取videok中的上下文标签树LTk

步骤3:以videoj的场景为单位人工标注场景语义,构建场景语义训练集;训练C4.5分类器,得到场景语义分析器;利用场景语义分析器提取videok中各个场景的场景语义;

步骤4:将步骤1中得到的videok各镜头的镜头语义集与步骤3得到的videok各场景的场景语义嵌入到步骤2中得到的LTk对应的节点中,将带有镜头语义和场景语义的LTk的作为videok的视频索引;

其中,所述步骤2按如下步骤进行:

步骤3.1:从videoj各镜头的镜头语义集中提取一个镜头语义代表该镜头,然后按照时序关系组成镜头语义序列wuj

步骤3.2:人工标注wuj的上下文,并用上下文标签树LTj表示上下文信息;上下文标签树为一个五元组LTj=<L,Video,Scene,NL,P>;其中L是镜头语义标签集,其元素表示的是wuj中代表镜头的镜头语义;Video是“视频上下文”标签,所表示的上下文是其子节点共同表达这段视频的内容;Scene是“场景上下文”标签,所表示的是其子节点共同表达了这个场景的内容;NL是除Video和Scene之外的上下文标签集,其中每个元素都代表一种上下文关系;P是上下文规则集,其每个元素表示的是一条上下文规则;

步骤3.3:将n个wuj和对应的上下文标签树构造成上下文训练集:context={(xj,yj)|j=1,...,n},其中xj是上下文训练集中的镜头语义序列,yj是上下文训练集中的与xj对应的上下文标签树;

步骤3.4:利用上下文训练集训练结构化支持向量机SVM-Struct,具体操作为:

步骤3.4.1:构造镜头语义序列与上下文标签树的映射函数为:

其中,f(xj,yj;W)=<W,ψ(xj,yj)>为判别函数,Y是xj可以构造出的所有上下文标签树的集合,W是权向量,ψ(xj,yj)是训练数据中的镜头语义序列与其对应的上下文标签树的联合特征向量;构造ψ(xj,yj)的方式如下:

<mrow><mi>&psi;</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>,</mo><msub><mi>y</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><msub><mi>p</mi><mn>1</mn></msub></mtd><mtd><msub><mi>a</mi><mn>1</mn></msub></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><msub><mi>p</mi><mi>N</mi></msub></mtd><mtd><msub><mi>a</mi><mi>N</mi></msub></mtd></mtr></mtable></mfenced></mrow>

其中pi与ai,i∈[1,N]分别是该上下文标签树的上下文规则集P中的规则和该规则对应出现的次数,N为上下文训练集中出现的上下文规则类别总数;

步骤3.4.2:将训练SVM-Struct转化为最优化问题:

<mrow><mi>m</mi><mi>i</mi><mi>n</mi><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>|</mo><mo>|</mo><mi>W</mi><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>+</mo><mfrac><mi>C</mi><mi>n</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>&epsiv;</mi><mi>j</mi></msub><mo>,</mo></mrow>

<mrow><mtable><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo></mrow></mtd><mtd><mrow><mo>&ForAll;</mo><mi>y</mi><mo>&Element;</mo><mi>Y</mi><mo>/</mo><msub><mi>y</mi><mi>j</mi></msub><mo>:</mo><mo>&lt;</mo><mi>W</mi><mo>,</mo><mi>&psi;</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>,</mo><msub><mi>y</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>-</mo><mi>&psi;</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>&gt;</mo><mo>&GreaterEqual;</mo><mi>&Delta;</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>j</mi></msub><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>&epsiv;</mi><mi>j</mi></msub></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>

其中εj为松弛变量,C>0是错分样本的惩罚值,Δ(yj,y)为损失函数;令损失函数Δ(yj,y)=(1-F1(yj,y));其中yj是上下文训练集中镜头语义序列的真实上下文标签树,y是训练过程中预测的上下文标签树,F1计算方式如下:

<mrow><mi>Pr</mi><mi>e</mi><mi>c</mi><mi>i</mi><mi>s</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>=</mo><mfrac><mrow><mo>|</mo><mi>E</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>&cap;</mo><mi>E</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mo>|</mo><mi>E</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo></mrow></mfrac></mrow>

<mrow><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi><mo>=</mo><mfrac><mrow><mo>|</mo><mi>E</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>&cap;</mo><mi>E</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mo>|</mo><mi>E</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>|</mo></mrow></mfrac></mrow>

<mrow><msub><mi>F</mi><mn>1</mn></msub><mo>=</mo><mfrac><mrow><mn>2</mn><mo>*</mo><mi>Pr</mi><mi>e</mi><mi>c</mi><mi>i</mi><mi>s</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>*</mo><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi></mrow><mrow><mi>Pr</mi><mi>e</mi><mi>c</mi><mi>i</mi><mi>s</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>+</mo><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi></mrow></mfrac></mrow>

其中,Precision为上下文标签中每个节点预测的准确率,Recall为上下文标签树中每个节点预测的召回率,E(yj)为yj的边集,E(y)为y的边集;

步骤3.4.3:将公式(6)转化成其对偶的形式:

<mrow><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mi>&alpha;</mi></munder><munder><mo>&Sigma;</mo><mrow><mi>j</mi><mo>,</mo><mi>y</mi><mo>&NotEqual;</mo><msub><mi>y</mi><mi>j</mi></msub></mrow></munder><msub><mi>&alpha;</mi><mrow><mi>j</mi><mi>y</mi></mrow></msub><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><munder><munder><mi>&Sigma;</mi><mrow><mi>j</mi><mo>,</mo><mi>y</mi><mo>&NotEqual;</mo><msub><mi>y</mi><mi>j</mi></msub></mrow></munder><mrow><mi>z</mi><mo>,</mo><mover><mi>y</mi><mo>&OverBar;</mo></mover><mo>&NotEqual;</mo><msub><mi>y</mi><mi>z</mi></msub></mrow></munder><msub><mi>&alpha;</mi><mrow><mi>j</mi><mi>y</mi></mrow></msub><msub><mi>&alpha;</mi><mrow><mi>z</mi><mover><mi>y</mi><mo>&OverBar;</mo></mover></mrow></msub><mo>&lt;</mo><mrow><mo>(</mo><mi>&psi;</mi><mo>(</mo><mrow><msub><mi>x</mi><mi>j</mi></msub><mo>,</mo><msub><mi>y</mi><mi>j</mi></msub></mrow><mo>)</mo><mo>-</mo><mi>&psi;</mi><mo>(</mo><mrow><msub><mi>x</mi><mi>j</mi></msub><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>)</mo></mrow><mo>,</mo><mrow><mo>(</mo><mi>&psi;</mi><mo>(</mo><mrow><msub><mi>x</mi><mi>z</mi></msub><mo>,</mo><msub><mi>y</mi><mi>z</mi></msub></mrow><mo>)</mo><mo>-</mo><mi>&psi;</mi><mo>(</mo><mrow><msub><mi>x</mi><mi>z</mi></msub><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>)</mo></mrow><mo>&gt;</mo></mrow>

<mrow><mtable><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi></mrow></mtd><mtd><mrow><mo>&ForAll;</mo><mi>j</mi><mo>,</mo><mo>&ForAll;</mo><mi>y</mi><mo>&Element;</mo><mi>Y</mi><mo>/</mo><msub><mi>y</mi><mi>j</mi></msub><mo>:</mo><msub><mi>&alpha;</mi><mrow><mi>j</mi><mi>y</mi></mrow></msub><mo>&GreaterEqual;</mo><mn>0.</mn></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>

其中αjy与均是拉格朗日乘子,对于软间隔,还另外有组约束条件:

<mrow><mo>&ForAll;</mo><mi>j</mi><mo>,</mo><mi>n</mi><munder><mo>&Sigma;</mo><mrow><mi>y</mi><mo>&NotEqual;</mo><msub><mi>y</mi><mi>j</mi></msub></mrow></munder><mfrac><msub><mi>&alpha;</mi><mrow><mi>j</mi><mi>y</mi></mrow></msub><mrow><mi>&Delta;</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>j</mi></msub><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow></mfrac><mo>&le;</mo><mi>C</mi></mrow>

步骤3.4.4:在上下文训练集context上计算公式(7),找到最优的一组αjy后也就确定权向量W,得到上下文标签树分析器;

步骤3.5:用与步骤3.1相同的方式提取videok的镜头语义序列wuk,并将wuk输入视频上下文标签树分析器,得到wuk对应的LTk

其中,所述步骤3按如下步骤进行:

步骤4.1:根据LTj中的“场景上下文”标签Scene,将每个Scene标签下的叶节点所对应的镜头作为一个完整的视频场景,实现视频的场景分割;然后以场景为单位人工对videoj的场景进行场景语义标注;

步骤4.2:利用每个场景中各镜头的镜头语义集及所对应LTj中的上下文信息构造场景语义训练集;其中场景语义的特征分为两种:

a.镜头语义特征:若某镜头语义出现在该场景中,令该镜头语义特征值为1,否则为0;

b.上下文特征:上下文特征是两个镜头语义之间的上下文关系,镜头语义在LTj中对应一个叶节点,所以这两个镜头语义的上下文特征值为这两个叶节点最近公共祖先节点上的上下文标签;

步骤4.3:以C4.5算法为分类模型,根据场景语义训练集中各个特征属性的信息增益率来选择属性作为节点,最终生成分析视频场景语义的决策树,并将这棵决策树作为场景语义分析器;

步骤4.4:根据wuk的LTk,以与步骤4.1中相同的方法将videok分为若干场景,并以场景为单位提取该场景的特征向量;将videok各场景的特征向量输入场景语义分析器,得到videok各场景的场景语义;

其中,所述步骤4按如下步骤进行:

步骤5.1:将LTk中的每个叶节点中的镜头语义标签替换为所代表的镜头所对应的镜头语义集;

步骤5.2:将LTk中的每个Scene替换为对应的场景语义;

步骤5.3:将包含镜头语义与场景语义的LTk作为videok的视频索引。

2.根据权利要求1所述的一种融合上下文的树形视频语义索引建立方法,其特征在于:所述步骤1中按如下步骤进行:

步骤2.1:对n个训练视频片段videoj进行镜头分割,得到r个训练视频镜头shot1,shot2,…,shotr;提取并量化镜头shoti的视觉特征,构造其视觉特征向量vi

步骤2.2:设置标注语义集Semantic={Semt|t=1,...,e},人工标注r个镜头中出现的语义Semt,加入到各个镜头的镜头语义集中,然后为每一类镜头语义Semt构造镜头语义训练集Trat,Trat={(vi,si)|i=1,...,r},如果语义Semt出现在镜头shoti中,则si=1,否则为0;最终得到e个镜头语义的训练集Tra1,Tra2,…,Trae

步骤2.3:使用SVM分类器作为分类模型,为每个语义Semt训练一个分类器SVMt;SVMt的判别函数形式为:ft(vi)=sgn[g(vi)],其中g(vi)=<w,vi>+b,w和b是期望的最优参数,vi为视频镜头shoti的视觉特征向量;

训练集Trat训练SVMt的优化目标为:

<mrow><mtable><mtr><mtd><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow></mtd><mtd><mrow><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>|</mo><mo>|</mo><mi>w</mi><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup></mrow></mtd></mtr><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo></mrow></mtd><mtd><mrow><msub><mi>s</mi><mi>i</mi></msub><mrow><mo>(</mo><mo>&lt;</mo><mi>w</mi><mo>,</mo><msub><mi>v</mi><mi>i</mi></msub><mo>&gt;</mo><mo>+</mo><mi>b</mi><mo>)</mo></mrow><mo>-</mo><mn>1</mn><mo>&GreaterEqual;</mo><mn>0</mn></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>

利用拉格朗日函数合并优化问题和约束将(1)式转化为:

<mrow><mtable><mtr><mtd><mrow><msub><mi>max</mi><mi>&alpha;</mi></msub><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>,</mo><mi>h</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msub><mi>&alpha;</mi><mi>i</mi></msub><msub><mi>&alpha;</mi><mi>h</mi></msub><msub><mi>s</mi><mi>i</mi></msub><msub><mi>s</mi><mi>h</mi></msub><msub><mi>v</mi><mi>i</mi></msub><mo>*</mo><msub><mi>v</mi><mi>h</mi></msub></mrow></mtd></mtr><mtr><mtd><mtable><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo></mrow></mtd><mtd><mrow><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>&GreaterEqual;</mo><mn>0</mn><mo>,</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msub><mi>&alpha;</mi><mi>i</mi></msub><msub><mi>s</mi><mi>i</mi></msub><mo>=</mo><mn>0</mn></mrow></mtd></mtr></mtable></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>

其中α={α12,...,αr}为拉格朗日乘子,h和i都是下标,vi和vh是镜头shoti和shoth对应的视觉特征向量;

引入核函数K(vi,vh),将公式(2)转换为:

<mrow><mtable><mtr><mtd><mrow><msub><mi>max</mi><mi>&alpha;</mi></msub><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msub><mi>&alpha;</mi><mi>j</mi></msub><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>,</mo><mi>h</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msub><mi>&alpha;</mi><mi>i</mi></msub><msub><mi>&alpha;</mi><mi>h</mi></msub><msub><mi>s</mi><mi>i</mi></msub><msub><mi>s</mi><mi>h</mi></msub><mi>K</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>,</mo><msub><mi>v</mi><mi>h</mi></msub><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mtable><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo></mrow></mtd><mtd><mrow><msub><mi>&alpha;</mi><mi>i</mi></msub><mo>&GreaterEqual;</mo><mn>0</mn><mo>,</mo><munderover><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msub><mi>&alpha;</mi><mi>i</mi></msub><msub><mi>s</mi><mi>i</mi></msub><mo>=</mo><mn>0</mn></mrow></mtd></mtr></mtable></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>

核函数选定为径向基函数,定义为:

<mrow><mi>K</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>,</mo><msub><mi>v</mi><mi>h</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><msup><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>-</mo><msub><mi>v</mi><mi>h</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><mrow><mn>2</mn><msup><mi>&sigma;</mi><mn>2</mn></msup></mrow></mfrac><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>

其中exp()为指数函数,σ为参数;

训练完成后就确定了一组αi,也就确定了镜头语义Semt的判别函数:

<mrow><msub><mi>f</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>=</mo><mi>sgn</mi><mo>&lsqb;</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msub><mi>&alpha;</mi><mi>i</mi></msub><msub><mi>s</mi><mi>i</mi></msub><mi>K</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>,</mo><msub><mi>v</mi><mi>h</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>b</mi><mn>0</mn></msub><mo>&rsqb;</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>

其中b0为参数;

步骤2.4:按照步骤2.3完成对所有Semt的分类器SVMt训练后,得到e个镜头语义的判别函数,将e个镜头语义的判别函数组成镜头语义分析器组;

步骤2.5:对m个待建立树形索引的视频片段videok进行镜头分割,然后提取每个镜头的视觉特征组成特征向量v;将v输入镜头语义分析器组以判断该镜头中出现的语义,并将出现的语义加入到这个镜头的镜头语义集中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410297974.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top