[发明专利]利用多分辨率语音识别搜索处理对采样音频内容进行处理无效
申请号: | 200780048578.2 | 申请日: | 2007-11-06 |
公开(公告)号: | CN101611439A | 公开(公告)日: | 2009-12-23 |
发明(设计)人: | 程燕鸣 | 申请(专利权)人: | 摩托罗拉公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00 |
代理公司: | 中原信达知识产权代理有限责任公司 | 代理人: | 穆德骏;陆锦华 |
地址: | 美国伊*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 分辨率 语音 识别 搜索 处理 采样 音频 内容 进行 | ||
技术领域
本发明整体上涉及的是语音识别处理,尤其涉及的是语音识别搜 索处理。
背景技术
语音识别包含已知的努力领域。某些语音识别处理利用了语音识 别搜索处理,例如,但不限于,所谓的基于隐马尔可夫模型的语音识 别处理。这通常包括使用输出一系列符号或数量的统计模型,其中本 质上将语音作为用于通常被称为状态的随机过程的马尔可夫模型来处 理。例如,示例性隐马尔可夫模型可能输出一系列39维的实值向量, 大约每10毫秒输出这些中的一个。
这种向量可以包括,例如,倒谱系数(cepstral cefficient),通过 对采样语音进行短时窗傅立叶变换以及利用余弦变换对频谱进行去相 关(de-correlating),然后为此取得第一(最关键的)系数,来获取该 倒谱系数。对于每个状态,隐马尔可夫模型方法将趋向于具有被称为 对角混合或全协方差高斯的统计分布,其将表征用于每个观测的向量 的对应可能性。
在许多现有技术方法中,常规的语音识别搜索要求:采用单级分 辨率在规则的基础上(典型地是按照采样音频内容的每个帧)来搜索 词、子词以及上述状态之间的边界。虽然确实是最佳和有效的方法, 但是这种搜索词、子词以及状态边界的逐帧(或单分辨率)方法还要 求相当大的计算资源。该需求仅随着所支持词汇量的深度和广度而增 长。结果,采用语音识别搜索处理的语音识别处理可能要求巨大的计 算资源。
例如,考虑一种应用设置,其中每帧仅表示约10毫秒的音频内容。 对于支持假定50,000个词的识别的语音识别处理,有必要对于每个 这种帧进行搜索并比较识别数据-该识别数据对应于50000个词中的每 个。单单这个就要求相当大的计算能力。这些需求仅在考虑到这种处 理还要求对每个这种帧内的子词进行相应搜索时,增长更严重。
结果,这种方法,虽然通常能够成功地实现最佳语音识别,但是 在这种计算开销不能简单获得的应用设置中要很好的工作需要的计算 量往往太大。例如,诸如蜂窝电话等小的便携式无线通讯装置代表这 种应用设置。可获得的计算能力以及相应的功率容量限制都可能严重 地限制这种方法的实际使用。
附图说明
通过提供与使用语音识别搜索处理对采样音频内容进行处理有关 的方法和设备,可以至少部分地满足上述需求,尤其在结合附图进行 研究时将该方法和设备描述于以下详细描述中,在附图中:
图1包括根据本发明各个实施例而配置的流程图;
图2包括根据本发明各个实施例而配置的示意图;以及
图3包括根据本发明各个实施例而配置的框图表示。
本领域普通技术人员将明白,为了简明而描述附图中的元素,没 有必要按照比例绘制所述元素。例如,附图中一些元素的尺度和/或相 对位置可以相对于其它元素被放大,以有助于改善对本发明的各个实 施例的理解。并且,为了便于对查看本发明的这些不同实施例带来更 少的妨碍,通常没有绘出在商业可行实施例中有用的或必要的普通但 公知的元素。进一步可以明白的是,可以按照出现的特定顺序描述或 描写某些动作和/步骤,但是本领域普通技术人员明白,实际上不要求 这种关于顺序的特定性。还将明白,这里所用的术语和表述具有与它 们各自相应调查、研究领域中的这种术语和表述相一致的普通含义, 这里另外予以说明的特殊含义除外。
具体实施方式
通常讲,依照这些不同的实施例,提供采样音频内容的多个帧, 然后利用语音识别搜索处理对多个帧进行处理,该语音识别搜索处理 至少部分包括:例如在每个帧内以基本分辨率搜索状态边界中的至少 一个;利用不同的搜索分辨率搜索状态边界、子词边界、词边界中的 至少两个。当然,这与现有实践形成了鲜明的对比,因为现有实践通 常要求系统地对每个帧(或以单一分辨率)搜索每个状态、子词以及 词边界。
根据一种方法,这可以包括:当搜索状态边界时利用第一相对精 细级别的搜索分辨率(例如每帧),当搜索子词和词边界时利用较粗 级别的分辨率(例如每隔一帧)。作为另一个例子,根据一种方法, 这可以包括,当搜索状态边界时,利用第一相对精细级别的搜索分辨 率(例如每帧),当搜索子词边界时利用较粗级别的分辨率(例如每 隔一帧),和当搜索词边界时利用更粗级别的分辨率(例如每隔四帧)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于摩托罗拉公司,未经摩托罗拉公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200780048578.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数学制图用椭圆规
- 下一篇:一种专用于画椭圆的工具