[发明专利]一种融合上下文的树形视频语义索引建立方法有效

申请号：	201410297974.0	申请日：	2014-06-26
公开（公告）号：	CN104036023B	公开（公告）日：	2017-05-10
发明（设计）人：	余春艳;苏晨涵;翁子林;陈昭炯	申请（专利权）人：	福州大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	福州元创专利商标代理有限公司35100	代理人：	蔡学俊
地址：	350108 福建省福州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合上下文树形视频语义索引建立方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合上下文的树形视频语义索引建立方法，其特征在于该方法包括以下步骤：

步骤1：输入n个训练视频片段video_j，j∈{1,...,n}，对video_j进行预处理，然后以镜头为单位人工标注video_j各个镜头的镜头语义集,并为每类镜头语义构造镜头语义训练集以训练分类器，得到镜头语义分析器；输入m个待建立树形索引的视频片段video_k，k∈{1,...,m}，对video_k进行预处理，利用镜头语义分析器提取video_k各个镜头的镜头语义集；

步骤2：以视频片段为单位，人工标注video_j中镜头语义之间的上下文，用带有上下文标签的上下文标签树LT_j表示，并构建上下文训练集；训练结构化支持向量SVM-Struct，得到上下文标签树分析器；利用上下文标签树分析器提取video_k中的上下文标签树LT_k；

步骤3：以video_j的场景为单位人工标注场景语义，构建场景语义训练集；训练C4.5分类器，得到场景语义分析器；利用场景语义分析器提取video_k中各个场景的场景语义；

步骤4：将步骤1中得到的video_k各镜头的镜头语义集与步骤3得到的video_k各场景的场景语义嵌入到步骤2中得到的LT_k对应的节点中，将带有镜头语义和场景语义的LT_k的作为video_k的视频索引；

其中，所述步骤2按如下步骤进行：

步骤3.1：从video_j各镜头的镜头语义集中提取一个镜头语义代表该镜头，然后按照时序关系组成镜头语义序列wu_j；

步骤3.2：人工标注wu_j的上下文，并用上下文标签树LT_j表示上下文信息；上下文标签树为一个五元组LT_j＝＜L,Video,Scene,NL,P＞；其中L是镜头语义标签集，其元素表示的是wu_j中代表镜头的镜头语义；Video是“视频上下文”标签，所表示的上下文是其子节点共同表达这段视频的内容；Scene是“场景上下文”标签，所表示的是其子节点共同表达了这个场景的内容；NL是除Video和Scene之外的上下文标签集，其中每个元素都代表一种上下文关系；P是上下文规则集，其每个元素表示的是一条上下文规则；

步骤3.3：将n个wu_j和对应的上下文标签树构造成上下文训练集：context＝{(x_j,y_j)|j＝1,...,n}，其中x_j是上下文训练集中的镜头语义序列，y_j是上下文训练集中的与x_j对应的上下文标签树；

步骤3.4：利用上下文训练集训练结构化支持向量机SVM-Struct，具体操作为：

步骤3.4.1：构造镜头语义序列与上下文标签树的映射函数为：

其中，f(x_j,y_j；W)＝＜W,ψ(x_j,y_j)＞为判别函数，Y是x_j可以构造出的所有上下文标签树的集合，W是权向量，ψ(x_j,y_j)是训练数据中的镜头语义序列与其对应的上下文标签树的联合特征向量；构造ψ(x_j,y_j)的方式如下：

$<mrow><mi>ψ</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>,</mo><msub><mi>y</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open = "{" close = ""><mtable><mtr><mtd><msub><mi>p</mi><mn>1</mn></msub></mtd><mtd><msub><mi>a</mi><mn>1</mn></msub></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><mo>.</mo></mtd><mtd><mo>.</mo></mtd></mtr><mtr><mtd><msub><mi>p</mi><mi>N</mi></msub></mtd><mtd><msub><mi>a</mi><mi>N</mi></msub></mtd></mtr></mtable></mfenced></mrow>$

其中p_i与a_i,i∈[1,N]分别是该上下文标签树的上下文规则集P中的规则和该规则对应出现的次数，N为上下文训练集中出现的上下文规则类别总数；

步骤3.4.2：将训练SVM-Struct转化为最优化问题：

$<mrow><mi>m</mi><mi>i</mi><mi>n</mi><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>|</mo><mo>|</mo><mi>W</mi><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup><mo>+</mo><mfrac><mi>C</mi><mi>n</mi></mfrac><munderover><mo>Σ</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>ϵ</mi><mi>j</mi></msub><mo>,</mo></mrow>$

$<mrow><mtable><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo></mrow></mtd><mtd><mrow><mo>&ForAll;</mo><mi>y</mi><mo>&Element;</mo><mi>Y</mi><mo>/</mo><msub><mi>y</mi><mi>j</mi></msub><mo>:</mo><mo><</mo><mi>W</mi><mo>,</mo><mi>ψ</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>,</mo><msub><mi>y</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>-</mo><mi>ψ</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>j</mi></msub><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>></mo><mo>&GreaterEqual;</mo><mi>Δ</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>j</mi></msub><mo>,</mo><mi>y</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>ϵ</mi><mi>j</mi></msub></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>$

其中ε_j为松弛变量，C>0是错分样本的惩罚值，Δ(y_j,y)为损失函数；令损失函数Δ(y_j,y)＝(1-F₁(y_j,y))；其中y_j是上下文训练集中镜头语义序列的真实上下文标签树，y是训练过程中预测的上下文标签树，F₁计算方式如下：

$<mrow><mi>Pr</mi><mi>e</mi><mi>c</mi><mi>i</mi><mi>s</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>=</mo><mfrac><mrow><mo>|</mo><mi>E</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>∩</mo><mi>E</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mo>|</mo><mi>E</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo></mrow></mfrac></mrow>$

$<mrow><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi><mo>=</mo><mfrac><mrow><mo>|</mo><mi>E</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>∩</mo><mi>E</mi><mrow><mo>(</mo><mi>y</mi><mo>)</mo></mrow><mo>|</mo></mrow><mrow><mo>|</mo><mi>E</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>|</mo></mrow></mfrac></mrow>$

$<mrow><msub><mi>F</mi><mn>1</mn></msub><mo>=</mo><mfrac><mrow><mn>2</mn><mo>*</mo><mi>Pr</mi><mi>e</mi><mi>c</mi><mi>i</mi><mi>s</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>*</mo><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi></mrow><mrow><mi>Pr</mi><mi>e</mi><mi>c</mi><mi>i</mi><mi>s</mi><mi>i</mi><mi>o</mi><mi>n</mi><mo>+</mo><mi>Re</mi><mi>c</mi><mi>a</mi><mi>l</mi><mi>l</mi></mrow></mfrac></mrow>$

其中，Precision为上下文标签中每个节点预测的准确率，Recall为上下文标签树中每个节点预测的召回率，E(y_j)为y_j的边集，E(y)为y的边集；

步骤3.4.3：将公式(6)转化成其对偶的形式：

$<mrow><munder><mrow><mi>m</mi><mi>a</mi><mi>x</mi></mrow><mi>α</mi></munder><munder><mo>Σ</mo><mrow><mi>j</mi><mo>,</mo><mi>y</mi><mo>&NotEqual;</mo><msub><mi>y</mi><mi>j</mi></msub></mrow></munder><msub><mi>α</mi><mrow><mi>j</mi><mi>y</mi></mrow></msub><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><munder><munder><mi>Σ</mi><mrow><mi>j</mi><mo>,</mo><mi>y</mi><mo>&NotEqual;</mo><msub><mi>y</mi><mi>j</mi></msub></mrow></munder><mrow><mi>z</mi><mo>,</mo><mover><mi>y</mi><mo>&OverBar;</mo></mover><mo>&NotEqual;</mo><msub><mi>y</mi><mi>z</mi></msub></mrow></munder><msub><mi>α</mi><mrow><mi>j</mi><mi>y</mi></mrow></msub><msub><mi>α</mi><mrow><mi>z</mi><mover><mi>y</mi><mo>&OverBar;</mo></mover></mrow></msub><mo><</mo><mrow><mo>(</mo><mi>ψ</mi><mo>(</mo><mrow><msub><mi>x</mi><mi>j</mi></msub><mo>,</mo><msub><mi>y</mi><mi>j</mi></msub></mrow><mo>)</mo><mo>-</mo><mi>ψ</mi><mo>(</mo><mrow><msub><mi>x</mi><mi>j</mi></msub><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>)</mo></mrow><mo>,</mo><mrow><mo>(</mo><mi>ψ</mi><mo>(</mo><mrow><msub><mi>x</mi><mi>z</mi></msub><mo>,</mo><msub><mi>y</mi><mi>z</mi></msub></mrow><mo>)</mo><mo>-</mo><mi>ψ</mi><mo>(</mo><mrow><msub><mi>x</mi><mi>z</mi></msub><mo>,</mo><mi>y</mi></mrow><mo>)</mo><mo>)</mo></mrow><mo>></mo></mrow>$

$<mrow><mtable><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi></mrow></mtd><mtd><mrow><mo>&ForAll;</mo><mi>j</mi><mo>,</mo><mo>&ForAll;</mo><mi>y</mi><mo>&Element;</mo><mi>Y</mi><mo>/</mo><msub><mi>y</mi><mi>j</mi></msub><mo>:</mo><msub><mi>α</mi><mrow><mi>j</mi><mi>y</mi></mrow></msub><mo>&GreaterEqual;</mo><mn>0.</mn></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>$

其中α_jy与均是拉格朗日乘子，对于软间隔，还另外有组约束条件：

$<mrow><mo>&ForAll;</mo><mi>j</mi><mo>,</mo><mi>n</mi><munder><mo>Σ</mo><mrow><mi>y</mi><mo>&NotEqual;</mo><msub><mi>y</mi><mi>j</mi></msub></mrow></munder><mfrac><msub><mi>α</mi><mrow><mi>j</mi><mi>y</mi></mrow></msub><mrow><mi>Δ</mi><mrow><mo>(</mo><msub><mi>y</mi><mi>j</mi></msub><mo>,</mo><mi>y</mi><mo>)</mo></mrow></mrow></mfrac><mo>≤</mo><mi>C</mi></mrow>$

步骤3.4.4：在上下文训练集context上计算公式(7)，找到最优的一组α_jy后也就确定权向量W，得到上下文标签树分析器；

步骤3.5：用与步骤3.1相同的方式提取video_k的镜头语义序列wu_k，并将wu_k输入视频上下文标签树分析器，得到wu_k对应的LT_k；

其中，所述步骤3按如下步骤进行：

步骤4.1：根据LT_j中的“场景上下文”标签Scene，将每个Scene标签下的叶节点所对应的镜头作为一个完整的视频场景，实现视频的场景分割；然后以场景为单位人工对video_j的场景进行场景语义标注；

步骤4.2：利用每个场景中各镜头的镜头语义集及所对应LT_j中的上下文信息构造场景语义训练集；其中场景语义的特征分为两种：

a.镜头语义特征：若某镜头语义出现在该场景中，令该镜头语义特征值为1，否则为0；

b.上下文特征：上下文特征是两个镜头语义之间的上下文关系，镜头语义在LT_j中对应一个叶节点，所以这两个镜头语义的上下文特征值为这两个叶节点最近公共祖先节点上的上下文标签；

步骤4.3：以C4.5算法为分类模型，根据场景语义训练集中各个特征属性的信息增益率来选择属性作为节点，最终生成分析视频场景语义的决策树，并将这棵决策树作为场景语义分析器；

步骤4.4：根据wu_k的LT_k，以与步骤4.1中相同的方法将video_k分为若干场景，并以场景为单位提取该场景的特征向量；将video_k各场景的特征向量输入场景语义分析器，得到video_k各场景的场景语义；

其中，所述步骤4按如下步骤进行：

步骤5.1：将LT_k中的每个叶节点中的镜头语义标签替换为所代表的镜头所对应的镜头语义集；

步骤5.2：将LT_k中的每个Scene替换为对应的场景语义；

步骤5.3：将包含镜头语义与场景语义的LT_k作为video_k的视频索引。

2.根据权利要求1所述的一种融合上下文的树形视频语义索引建立方法，其特征在于：所述步骤1中按如下步骤进行：

步骤2.1：对n个训练视频片段video_j进行镜头分割，得到r个训练视频镜头shot₁，shot₂，…，shot_r；提取并量化镜头shot_i的视觉特征，构造其视觉特征向量v_i；

步骤2.2：设置标注语义集Semantic＝{Sem_t|t＝1,...,e}，人工标注r个镜头中出现的语义Sem_t，加入到各个镜头的镜头语义集中，然后为每一类镜头语义Sem_t构造镜头语义训练集Tra_t,Tra_t＝{(v_i,s_i)|i＝1,...,r}，如果语义Sem_t出现在镜头shot_i中，则s_i＝1，否则为0；最终得到e个镜头语义的训练集Tra₁，Tra₂，…，Tra_e；

步骤2.3：使用SVM分类器作为分类模型，为每个语义Sem_t训练一个分类器SVM_t；SVM_t的判别函数形式为：f_t(v_i)＝sgn[g(v_i)]，其中g(v_i)＝＜w,v_i＞+b，w和b是期望的最优参数，v_i为视频镜头shot_i的视觉特征向量；

训练集Tra_t训练SVM_t的优化目标为：

$<mrow><mtable><mtr><mtd><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow></mtd><mtd><mrow><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>|</mo><mo>|</mo><mi>w</mi><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup></mrow></mtd></mtr><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo></mrow></mtd><mtd><mrow><msub><mi>s</mi><mi>i</mi></msub><mrow><mo>(</mo><mo><</mo><mi>w</mi><mo>,</mo><msub><mi>v</mi><mi>i</mi></msub><mo>></mo><mo>+</mo><mi>b</mi><mo>)</mo></mrow><mo>-</mo><mn>1</mn><mo>&GreaterEqual;</mo><mn>0</mn></mrow></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>$

利用拉格朗日函数合并优化问题和约束将(1)式转化为：

$<mrow><mtable><mtr><mtd><mrow><msub><mi>max</mi><mi>α</mi></msub><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msub><mi>α</mi><mi>i</mi></msub><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>,</mo><mi>h</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msub><mi>α</mi><mi>i</mi></msub><msub><mi>α</mi><mi>h</mi></msub><msub><mi>s</mi><mi>i</mi></msub><msub><mi>s</mi><mi>h</mi></msub><msub><mi>v</mi><mi>i</mi></msub><mo>*</mo><msub><mi>v</mi><mi>h</mi></msub></mrow></mtd></mtr><mtr><mtd><mtable><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo></mrow></mtd><mtd><mrow><msub><mi>α</mi><mi>i</mi></msub><mo>&GreaterEqual;</mo><mn>0</mn><mo>,</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msub><mi>α</mi><mi>i</mi></msub><msub><mi>s</mi><mi>i</mi></msub><mo>=</mo><mn>0</mn></mrow></mtd></mtr></mtable></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>$

其中α＝{α₁,α₂,...,α_r}为拉格朗日乘子，h和i都是下标，v_i和v_h是镜头shot_i和shot_h对应的视觉特征向量；

引入核函数K(v_i,v_h)，将公式(2)转换为：

$<mrow><mtable><mtr><mtd><mrow><msub><mi>max</mi><mi>α</mi></msub><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msub><mi>α</mi><mi>j</mi></msub><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>,</mo><mi>h</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msub><mi>α</mi><mi>i</mi></msub><msub><mi>α</mi><mi>h</mi></msub><msub><mi>s</mi><mi>i</mi></msub><msub><mi>s</mi><mi>h</mi></msub><mi>K</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>,</mo><msub><mi>v</mi><mi>h</mi></msub><mo>)</mo></mrow></mrow></mtd></mtr><mtr><mtd><mtable><mtr><mtd><mrow><mi>s</mi><mo>.</mo><mi>t</mi><mo>.</mo></mrow></mtd><mtd><mrow><msub><mi>α</mi><mi>i</mi></msub><mo>&GreaterEqual;</mo><mn>0</mn><mo>,</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msub><mi>α</mi><mi>i</mi></msub><msub><mi>s</mi><mi>i</mi></msub><mo>=</mo><mn>0</mn></mrow></mtd></mtr></mtable></mtd></mtr></mtable><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>$

核函数选定为径向基函数，定义为：

$<mrow><mi>K</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>,</mo><msub><mi>v</mi><mi>h</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><msup><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>-</mo><msub><mi>v</mi><mi>h</mi></msub><mo>)</mo></mrow><mn>2</mn></msup><mrow><mn>2</mn><msup><mi>σ</mi><mn>2</mn></msup></mrow></mfrac><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>$

其中exp()为指数函数，σ为参数；

训练完成后就确定了一组α_i，也就确定了镜头语义Sem_t的判别函数：

$<mrow><msub><mi>f</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>v</mi><mo>)</mo></mrow><mo>=</mo><mi>sgn</mi><mo>[</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msub><mi>α</mi><mi>i</mi></msub><msub><mi>s</mi><mi>i</mi></msub><mi>K</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>,</mo><msub><mi>v</mi><mi>h</mi></msub><mo>)</mo></mrow><mo>+</mo><msub><mi>b</mi><mn>0</mn></msub><mo>]</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>$

其中b₀为参数；

步骤2.4：按照步骤2.3完成对所有Sem_t的分类器SVM_t训练后，得到e个镜头语义的判别函数，将e个镜头语义的判别函数组成镜头语义分析器组；

步骤2.5：对m个待建立树形索引的视频片段video_k进行镜头分割，然后提取每个镜头的视觉特征组成特征向量v；将v输入镜头语义分析器组以判断该镜头中出现的语义，并将出现的语义加入到这个镜头的镜头语义集中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福州大学，未经福州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410297974.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合上下文的树形视频语义索引建立方法有效

专利文献下载