[发明专利]自动语音识别方法和系统有效

申请号：	201310033201.7	申请日：	2013-01-29
公开（公告）号：	CN103971675A	公开（公告）日：	2014-08-06
发明（设计）人：	饶丰;卢鲤;陈波;岳帅;张翔;王尔玉;谢达东;李露;陆读羚	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L21/06
代理公司：	北京德琦知识产权代理有限公司 11018	代理人：	张晓峰;宋志强
地址：	518044 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自动语音识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本申请涉及自动语音识别（ASR，Automatic Speech Recognition）技术领域，尤其涉及一种自动语音识别方法和系统。

背景技术

自动语音识别技术是将人类的语音中的词汇内容转换为计算机可读的输入字符的一项技术。语音识别具有复杂的处理流程，主要包括声学模型训练、语言模型训练、解码资源构建、以及解码四个过程。图1为现有自动语音识别系统的一种主要处理流程的示意图。参见图1，主要处理过程包括：

步骤101和102，需要根据声学原料进行声学模型训练得到声学模型，以及根据生语料进行语言模型训练得到语言模型。

所述声学模型是语音识别系统中最为重要的部分之一，目前的主流语音识别系统多采用隐马尔科夫模型（HMM，Hidden Markov Model）进行建模，隐马尔可夫模型是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中，状态并不是直接可见的，但受状态影响的某些变量则是可见的。在声学模型中描述了语音与音素的对应概率。所述音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位；从生理性质来看，一个发音动作形成一个音素。

所述语言模型主要构建为字符串s的概率分布p(s)，反映了字符串s作为一个句子出现的概率。假设w为字符串s中的每个词，则：

p(s)=p(w₁w₂w₃...w_n)=p(w₁)p(w₂|w₁)p(w₃|w₁w₂)...p(wk|w₁w₂..w_k-1)

步骤103，依据所述声学模型和语言模型，以及预设的词典，构建相应的解码资源。所述解码资源为加权优先转换机（WFST，weighted finite state transducer)网络。

步骤104、将语音输入到解码器，解码器依据所构建的解码资源对所述语音进行解码，输出概率值最高的字符串作为所述输入语音的识别结果。

但是，现有的语音识别技术多基于普适性的语音识别应用，即针对常用说话识别来进行模型搭建，这种情况下，语言模型的训练语料主要根据数据采集以及实际用户的输入，虽然从某种程度上较好地反映了用户的说话习惯，针对日常用语往往有较好的识别效果；但是，由于语言模型的训练语料中关于生僻词语较少出现，例如医药名和地名等，不能形成有效的概率统计模型，语言模型中生僻词语对应字符串的概率值非常低，因此当需要识别用户说出的较为生僻的词语的时候，往往会发生数据偏移问题，即识别出的字符串不是用户说出的词语，也就是说对于生僻词语的语音的识别准确率较低，难以取得较好的识别结果。

发明内容

有鉴于此，本发明的主要目的在于提供一种自动语音识别方法和系统，以提高对生僻词语的语音的识别准确率。

本发明的一种技术方案是这样实现的：

一种自动语音识别方法，包括：

对生语料进行语料分类计算，得到一个以上不同类别的分类语料；

针对所述每个分类语料进行语言模型训练计算，得到一个以上对应的分类语言模型；

依据分类的生僻程度为所述各个分类语言模型进行加权插值处理，其中各分类的生僻程度与该分类对应的加权值成正相关关系，将加权插值处理后的分类语言模型合并，得到插值语言模型；

依据声学模型和所述插值语言模型构建解码资源；

依据所述解码资源，对输入的语音进行解码，输出概率值最高的字符串作为所述输入语音的识别结果。

一种自动语音识别系统，包括：

分类处理模块，用于对生语料进行语料分类计算，得到一个以上不同类别的分类语料；

分类语言模型训练模块，用于针对所述每个分类语料进行语言模型训练计算，得到一个以上对应的分类语言模型；