[发明专利]一种人机交互的可扩展语音识别方法无效

申请号：	200910053200.2	申请日：	2009-06-17
公开（公告）号：	CN101923857A	公开（公告）日：	2010-12-22
发明（设计）人：	王视鎏;冯瑞;金城;薛向阳	申请（专利权）人：	复旦大学
主分类号：	G10L15/22	分类号：	G10L15/22;G10L15/06;G10L15/08
代理公司：	上海正旦专利代理有限公司 31200	代理人：	包兆宜
地址：	20043***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种人机交互扩展语音识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种人机交互的可扩展语音识别方法，可用于各类智能电子产品中需要语音识别的场合下，通过人机交互使得系统具有更高的可靠性，属于孤立词语音识别、智能机器人人机交互等技术范畴。

背景技术

大量的电子设备都需要通过同操作人员的交互来完成特定的功能。最为普遍的就是通过按钮或者遥控器来操作机器。在计算机诞生后通过鼠标和键盘来对软件界面进行操作。而语音这种交互方式也逐渐的被各种系统所采用，它的特点是非常方便，不需要用户使用任何额外的设备，而对话的方式也更容易被广大用户接受。同时，语音交互的缺点也十分明显，无识别率的存在使得它不像其他交互方式那样可靠。

每个语音识别系统，总是对应了一个指令集，指令集中包含了系统能够识别的所有指令。随着时代的发展，智能系统的开发越来越得到重视，而它的交互模式和其他系统有很大的不同。它不像电视或者手机，指令集有限，需要很高的正确率。而智能系统对指令识别正确度的要求并没有这么苛刻，但要求指令集能够扩展，并且在识别错误的情况下可以纠错。

目前，常用的语音识别系统包括连续语音识别和孤立词语音识别。连续语音识别基本方法采用的都是隐马尔可夫模型算法。在此领域的研究，虽然方法已经成熟，但是识别率上依然没有很大的突破。往往需要大量的语料进行长时间的训练，而且由于需要在音素识别完成的基础上进行语法分析，无法在线的扩展指令集。所以既克服不了环境的变化，也无法适应人类自然语言千变万化的特点。这类方法非常适用于对人名的识别，因为人名本身只关心它的发音而并不需要分析其语义。目前常见的手机语音拨号正是利用了这一特点，但它并不适合用于智能系统进行交互。

孤立词语音识别同其他机器学习和模式识别的方法一样，训练的过程中通过计算特征向量对样本进行聚类，识别的过程中同样计算特征向量通过分类器对待识别数据进行分类。语音处理常用的特征有能量、过零率、LPC倒谱系数、美尔频标倒谱MFCC等等。其中被采用的最广泛的就是MFCC，MFCC是一种基于人的听觉系统特性的特征参数。MFCC利用人的听觉的掩蔽效应和对不同频率的敏感性特性，实现对干扰噪声的抑制和对信息的压缩，同时利用倒谱的解卷特性，具有一定的信道失真补偿能力。人耳具有一些特殊的功能，这些功能使得人耳在嘈杂的环境中，以及各种变异情况下仍能正常地分辨出各种语音，其中耳蜗起了很关键的作用。耳蜗实际上相当于一个滤波器组，耳蜗的滤波作用是在对数频率尺度上进行的，在1000Hz为线性尺度，而1000Hz以上为对数尺度，这就使得人耳对低频信号比对高频信号更敏感，根据这一原则，研究者根据心理学实验得到了类似于耳蜗作用的一组滤波器组，这就是mel频率滤波器组。

MFCC特征提取方法是将一帧语音数据傅立叶变换后通过一组在美尔频率上均匀分布的滤波器，再求其倒谱和倒谱差分系数得到MFCC特征。每个语音帧的MFCC特征的维数是定值，语音段的MFCC特征维数＝每帧MFCC维数×帧数。因此语音段MFCC特征之间求相似度是求两个维数不同的向量之间的距离。

在语音识别中，DTW是一种简单有效的方法。该方法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别中出现较早、较为经典的一种算法。DTW算法的原理是计算两个长度不同的语音之间的相似程度，即失真距离。

大部分的智能系统，操作者对某一操作在交互的过程中使用的指令并不唯一，比如“向前走”，“前进”，“过来”都是要求机器人执行“向前走”这条操作。这给语音识别系统带来了很大的困难，要求用户一定要使用某种方式来和系统进行交互也是不合理的。另外，有些系统要求操作集也要具有一定的扩展能力，能够对具体操作中参数进行更换。

由于识别率的不可靠将会直接导致系统的不可靠，因此，必须设计一个语音识别系统能够在误识别的情况下避免系统的误操作。只有能够满足上述需求的语音识别系统，才能灵活有效的应用于智能系统中。

参考文献

1.Speech Processing，http://en.wikipedia.org/wiki/Speech_processing

2.Ann K.Syrdal，Raymond W.Bennett，Steven L.Greenspan.“Applied Speech Technology”，CRC-Press，Boca Raton，FL，1994

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200910053200.2/2.html，转载请声明来源钻瓜专利网。

上一篇：基于不锈钢基板的YBCO厚膜电阻浆料及其制备方法
下一篇：具有背光的键盘装置和方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种人机交互的可扩展语音识别方法无效

专利文献下载