[发明专利]一种语音识别方法和设备在审
申请号: | 201210363804.9 | 申请日: | 2012-09-26 |
公开(公告)号: | CN103680498A | 公开(公告)日: | 2014-03-26 |
发明(设计)人: | 刘长娥;张德明 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 唐华明 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 设备 | ||
技术领域
本发明涉及电学技术领域,特别涉及一种语音识别方法和设备。
背景技术
人类利用语言相互交流信息,语言包括:语音和文字两种表现方式。通过语音相互传递信息,是人类最重要的基本功能之一。随着信息技术的发展,人与机器之间也需要进行大量的信息交换,目前计算机已经开始模拟人类交流信息的过程。
人类交流信息的过程包括:1、自然语言生成:将大脑产生的思想转换成语言;2、语音合成:将语言转换成语音;3、语音识别:识别表达语言的语音内容;4、自然语言理解:理解语音所表达的语言意义。其中前两点是说者执行过程,后两点是听者执行过程。其中,语音识别是上述过程中的“识别表达语言的语音内容”,对于设备而言就是:识别人类所说的语音,并将其转化成文字。以下将就几个方面对语音识别进行说明。
一、设备语音识别基本原理:
语音识别是一种模式识别系统,语音识别包含如下步骤:
1、语言输入;
2、预处理;
3、特征提取,作为两个分支分别进入4的训练类聚以及5~7的识别操作;
4、训练类聚得到模板库;
5、使用模板库的参考模式执行相似度比较;
6、执行识别过程中对5中结果进行失真检测,然后进入7;
7、输出识别结果。
其中,预处理部分包括语音信号的采样、滤波等处理,特征提取的作用是从语音信号中提取出几组能描述其信号特征的参数,如能量、共振峰、倒谱系数等,以便于训练和识别。建立语音识别系统的过程是,先用大量语音进行训练得到模板库,然后读取模板库的模板,和待识别语音进行相似度比较,得到识别结果。
以下对本申请文件提到的名词说明如下:
训练(Training):预先分析出语音特征参数,制作语音模板(Template)并存放在语音参数库中,模板也可以叫做模型,主要有两种模型:声学模型(AM,acoustic model)和语言模型(LM,language model)。声学模型用以从声音信号中识别出“音”,而语言模型用以把音转换成“字”。
识别(Recognition):待识语音经过与训练时相同的分析,得到语音参数,将它与库中的参考模板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别结果,这里的识别结果表现为文字的形式。
失真测度(Distortion Measures):在进行比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度”。失真测度是语音识别过程中的比较,失真测度的计算公式有多种,例如:计算语音特征参数矢量之间的距离,更具体地:语音特征参数矢量A(x1,y1)和语音特征参数矢量B(x2,y2)间的失真测度
主要识别框架:基于模式匹配的动态时间规整法(DTW,Dynamic Time Warping)和基于统计模型的隐马尔柯夫模型法(HMM,Hidden Markov Model)。
二、语音识别的模型:
声学模型用以从声音信号中识别出“音”,而语言模型用以把音转换成“字”。
统计语音识别的最基本问题是,给定输入信号或特征序列O={O1,O2,...,On},和词汇表V={w1,w2,…,wL},从V中任意选择M个词构成词序列W=(w1,w2,...,wM),求解对应特征序列O的词序列W*,使得:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210363804.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于注塑机或压铸机机架上的形变补偿装置
- 下一篇:一种形变补偿装置