[发明专利]基于属性层次的视音频融合方法有效

申请号：	201510082621.3	申请日：	2015-02-15
公开（公告）号：	CN105989370B	公开（公告）日：	2020-07-31
发明（设计）人：	李学龙;卢孝强;胡迪	申请（专利权）人：	中国科学院西安光学精密机械研究所
主分类号：	G06K9/62	分类号：	G06K9/62;G10L15/02;G10L25/51
代理公司：	西安智邦专利商标代理有限公司 61211	代理人：	倪金荣
地址：	710119 陕西省西***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于属性层次的视音频融合方法。包括以下步骤：1】在Hollywood2行为数据库基础上任意抽取4组行为数据建立实验数据库，实验数据库包括训练集和测试集；对训练集和测试集的视音频进行预处理；2】对预处理后的训练集数据进行属性特征提取；3】利用提取到的属性特征对测试集进行度量，得到分类结果。本发明提出了一种可以提高识别率，同时增强应用的可扩展性的基于属性层次的视音频融合方法。
搜索关键词：	基于属性层次音频融合方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于属性层次的视音频融合方法，其特征在于：包括以下步骤：1】在Hollywood2行为数据库基础上任意抽取4组行为数据建立实验数据库，所述实验数据库包括训练集和测试集；对训练集和测试集的视音频进行预处理，预处理方法具体如下：1a]提取训练集与测试集的视频特征；所述视频特征采用密集轨迹特征和运动边界特征；并根据密集轨迹特征和运动边界特征组成视频数据；所述视频数据在帧的层次上进行密集采样，以保证特征点均等的覆盖所有的空间位置；1b]提取训练集与测试集的音频特征；所述音频特征在声音帧的层次上进行提取；一个音频会由多个特征进行联合表示，将多个特征组成一个矩阵；所述矩阵为音频数据；1c]聚类处理；对所有训练集中的视频特征和音频特征分别进行k‑means聚类，其结果为预处理后的训练集数据，具体公式如下：

<mrow><msup><mi>C</mi><mi>A</mi></msup><mo>:</mo><mo>{</mo><msubsup><mi>c</mi><mn>1</mn><mi>A</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mn>2</mn><mi>A</mi></msubsup><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mi>c</mi><mi>p</mi><mi>A</mi></msubsup><mo>}</mo></mrow>

<mrow><msup><mi>C</mi><mi>V</mi></msup><mo>:</mo><mo>{</mo><msubsup><mi>c</mi><mn>1</mn><mi>V</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mn>2</mn><mi>V</mi></msubsup><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msubsup><mi>c</mi><mi>p</mi><mi>V</mi></msubsup><mo>}</mo></mrow>

其中，由于视觉信息量远大于听觉信息量，故而q>p；2】对预处理后的训练集数据进行属性特征提取；根据得到的预处理后的训练集数据，提出以下的目标表达式，通过对它进行优化，以得到有监督聚类后的视音频弱行为描述包，即若干聚类中心。

<mrow><munder><mi>min</mi><mrow><mi>W</mi><mo>,</mo><msup><mi>C</mi><mi>A</mi></msup><mo>,</mo><msup><mi>C</mi><mi>V</mi></msup></mrow></munder><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msubsup><mrow><mo>|</mo><mo>|</mo><mi>W</mi><mfenced open='[' close=']'><mtable><mtr><mtd><msup><mi>φ</mi><mi>A</mi></msup><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>A</mi></msubsup><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msup><mi>φ</mi><mi>V</mi></msup><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>V</mi></msubsup><mo>)</mo></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><msub><mi>y</mi><mi>i</mi></msub><mo>|</mo><mo>|</mo></mrow><mn>2</mn><mn>2</mn></msubsup><mo>+</mo><msub><mi>β</mi><mn>1</mn></msub><mi>θ</mi><mrow><mo>(</mo><msubsup><mrow><mo>{</mo><msubsup><mi>x</mi><mi>i</mi><mi>A</mi></msubsup><mo>}</mo></mrow><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mo>,</mo><msup><mi>C</mi><mi>A</mi></msup><mo>)</mo></mrow><mo>+</mo><msub><mi>β</mi><mn>2</mn></msub><mi>θ</mi><mrow><mo>(</mo><msubsup><mrow><mo>{</mo><msubsup><mi>x</mi><mi>i</mi><mi>V</mi></msubsup><mo>}</mo></mrow><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mo>,</mo><msup><mi>C</mi><mi>V</mi></msup><mo>)</mo></mrow><mo>+</mo><mi>α</mi><msub><mrow><mo>|</mo><mo>|</mo><mi>W</mi><mo>|</mo><mo>|</mo></mrow><mn>2,1</mn></msub></mrow>

其中，和是视音频训练行为描述包；C^V和C^A是视音频弱行为描述包；W是相应的线性分类超平面；β₁，β₂以及α是平衡系数；对W采取l_2,1‑范式约束，使其既能满足能量约束，也同时能满足稀疏约束；其中的函数用于获取聚类中心，即弱行为描述包，其具体如下：

<mrow><mi>θ</mi><mrow><mo>(</mo><msubsup><mrow><mo>{</mo><msub><mi>x</mi><mi>i</mi></msub><mo>}</mo></mrow><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></msubsup><mo>,</mo><mi>C</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><munder><mi>min</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>n</mi></mrow></munder><mo>{</mo><mi>H</mi><mrow><mo>(</mo><msub><mi>x</mi><mi>i</mi></msub><mo>,</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>}</mo></mrow>

其中，是相应的训练行为包；H(x_i,c_j)用以测量两包之间的豪斯多夫距离；对于每个x_i需要找出与它豪斯多夫距离最小的聚类中心c_j，通过对所有最短距离的求和及不断改变C来获得局部最小值；3】利用提取到的属性特征对测试集进行度量，得到分类结果，具体方法如下：3a]获取相似度；用豪斯多夫距离测量学习得到的弱行为描述包和测试视频行为包之间的相似度，具体如下：

<mrow><mi>φ</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>A</mi></msubsup><mo>)</mo></mrow><mo>=</mo><mo>[</mo><mi>s</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>A</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mn>1</mn><mi>A</mi></msubsup><mo>)</mo></mrow><mo>,</mo><mi>s</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>A</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mn>2</mn><mi>A</mi></msubsup><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>s</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>A</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mi>p</mi><mi>A</mi></msubsup><mo>)</mo></mrow><mo>]</mo></mrow>

<mrow><mi>φ</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>V</mi></msubsup><mo>)</mo></mrow><mo>=</mo><mo>[</mo><mi>s</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>V</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mn>1</mn><mi>V</mi></msubsup><mo>)</mo></mrow><mo>,</mo><mi>s</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>V</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mn>2</mn><mi>V</mi></msubsup><mo>)</mo></mrow><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>s</mi><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>V</mi></msubsup><mo>,</mo><msubsup><mi>c</mi><mi>p</mi><mi>V</mi></msubsup><mo>)</mo></mrow><mo>]</mo></mrow>

上式中，和用以度量待检测行为包和每个弱行为描述包间的相似度，并且是已进行归一化后的距离，而下式用于度量高斯分布下两包的相似度：s(x_i,c_j)＝exp(‑H(x_i,c_j)²/δ)其中，δ是在所有弱行为描述包间的平均豪斯多夫距离；3b]获取分类结果；将上述获取的相似度度量结果和和优化目标表达式所得到的超平面W共同带入下式：

<mrow><msub><mi>y</mi><mi>i</mi></msub><mo>=</mo><mi>W</mi><mfenced open='[' close=']'><mtable><mtr><mtd><msup><mi>φ</mi><mi>A</mi></msup><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>A</mi></msubsup><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msup><mi>φ</mi><mi>V</mi></msup><mrow><mo>(</mo><msubsup><mi>x</mi><mi>i</mi><mi>V</mi></msubsup><mo>)</mo></mrow></mtd></mtr></mtable></mfenced></mrow>

其中，y_i为对于测试视频的分类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院西安光学精密机械研究所，未经中国科学院西安光学精密机械研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510082621.3/，转载请声明来源钻瓜专利网。

上一篇：一种抗闩锁IGBT器件
下一篇：一种基于人脸视频处理的心率检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于属性层次的视音频融合方法有效

专利文献下载