[发明专利]采用最相关的兴趣点的各组的选择的视觉语音识别方法有效
申请号: | 201410203307.1 | 申请日: | 2014-05-14 |
公开(公告)号: | CN104166837B | 公开(公告)日: | 2018-12-04 |
发明(设计)人: | E·贝海姆;H·萨比 | 申请(专利权)人: | 鹦鹉汽车股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 陈小刚 |
地址: | 法国*** | 国省代码: | 法国;FR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及采用最相关的兴趣点的各组的选择的视觉语音识别方法。该方法包括下列步骤:a)形成n个兴趣点的微结构的起始集合,每一微结构由n阶元组来定义,其中n≥1;b)对于每一元组,基于所述兴趣点的局部梯度和/或移动描述符来确定相关联的结构化视觉特性;以及c)迭代地搜索并选择最具区别性的元组。步骤c)通过以下步骤来操作:c1)将多核学习MKL类型的算法应用于所述元组集合;c2)提取产生最高相关性分数的元组子集;c3)将附加的元组聚集到这些元组,以获得更高阶元组的新集合;c4)确定与每一所聚集的元组相关联的结构化视觉特性;c5)选择最具区别性的元组的新子集;以及c6)重复步骤c1)到c5)直至最大阶N。 | ||
搜索关键词: | 采用 相关 兴趣 各组 选择 视觉 语音 识别 方法 | ||
【主权项】:
1.一种用于通过分析视频序列的视觉语音活动、通过跟踪在讲话者的嘴部区域上选择的一组预定兴趣点的局部变型来进行自动语言识别的方法,所述视频序列包括所述讲话者的嘴部区域的连续图像,所述方法的特征在于,所述方法包括以下步骤:a)形成n个兴趣点的微结构的起始集合,每一个微结构都由一n阶元组来定义,其中1≤n≤N;b)对于步骤a)的每一元组,基于所述元组的兴趣点的局部梯度和/或移动描述符来确定相关联的结构化视觉特性;c)通过以下步骤来迭代地搜索并选择最具区别性的元组:c1)将适于考虑元组及其相关联的结构化特性的组合的算法应用于所述元组集合并为所述组合的每一元组确定对应的相关性分数;c2)从在步骤c1)处考虑的所述元组集合中,提取产生最高相关性分数的元组的子集;c3)将附加的1阶元组聚集到在步骤c2)处提取的所述子集的元组,以获得更高阶元组的新集合;c4)确定与在步骤c3)处形成的每一所聚集的元组相关联的结构化视觉特性;c5)在所述更高阶元组的新集合中,选择最具区别性的元组的新子集;以及c6)重复步骤c1)到c5)直至最大阶N;以及d)基于在步骤c)选择的元组来执行视觉语言识别算法。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鹦鹉汽车股份有限公司,未经鹦鹉汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410203307.1/,转载请声明来源钻瓜专利网。