[发明专利]自动语音识别方法和系统有效

专利信息
申请号: 201310037464.5 申请日: 2013-01-30
公开(公告)号: CN103971686A 公开(公告)日: 2014-08-06
发明(设计)人: 岳帅;卢鲤;张翔;谢达东;陈波;饶丰 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G10L15/28 分类号: G10L15/28;G10L19/16
代理公司: 北京德琦知识产权代理有限公司 11018 代理人: 张晓峰;宋志强
地址: 518044 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自动 语音 识别 方法 系统
【说明书】:

技术领域

本申请涉及自动语音识别(ASR,Automatic Speech Recognition)技术领域,尤其涉及一种自动语音识别方法和系统。

背景技术

自动语音识别技术是将人类的语音中的词汇内容转换为计算机可读的输入字符的一项技术。语音识别具有复杂的处理流程,主要包括声学模型训练、语言模型训练、解码资源网络构建、以及解码四个过程。图1为现有自动语音识别系统的一种主要处理流程的示意图。参见图1,主要处理过程包括:

步骤101和102,需要根据声学原料进行声学模型训练得到声学模型,以及根据生语料进行语言模型训练得到语言模型。

所述声学模型是语音识别系统中最为重要的部分之一,目前的主流语音识别系统多采用隐马尔科夫模型(HMM,Hidden Markov Model)进行建模,隐马尔可夫模型是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。在声学模型中描述了实际的语音信号与音素的对应概率。所述音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位;从生理性质来看,一个发音动作形成一个音素。所述实际的语音信号由三音素表示,所述三音素是指当前音素以及当前音素的左半和右半连接音素,三音素用于描述特定环境中更加多样化的上下文。

所述语言模型主要构建为字符串s的概率分布p(s),反映了字符串s作为一个句子出现的概率。假设w为字符串s中的每个词,则:

p(s)=p(w1w2w3...wn)=p(w1)p(w2|w1)p(w3|w1w2)...p(wk|w1w2..wk-1)

步骤103,依据所述声学模型和语言模型,以及预设的词典,构建相应的解码资源网络。所述解码资源网络为加权优先转换机(WFST,weighted finite state transducer)网络。

步骤104、将语音输入到解码器,解码器依据所构建的解码资源网络对所述语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果。

图2为现有技术的一种构建解码资源网络的流程示意图。参见图2,该流程包括:将所述语言模型转换为对应的WFST的形式即得到Ngrame-WFST网络,将所述词典转换为对应的WFST的形式即得到Lexicon-WFST网络,将所述声学模型转换为对应的WFST的形式即得到Context-WFST网络。然后将这三个WFST网络合并,例如此图2中先将Ngrame-WFST网络和Lexicon-WFST网络合并为Lexicon-Grame-WFST网络,再和Context-WFST网络合并,得到最终的解码资源网络,即Context-Lexicon-Grame-WFST网络。

但是,现有的语音识别技术多基于普适性的语音识别应用,即针对常用说话识别来进行模型搭建,这种情况下,语言模型的训练语料主要根据数据采集以及实际用户的输入,虽然从某种程度上较好地反映了用户的说话习惯,针对日常用语往往有较好的识别效果;但是,由于语言模型的训练语料中关于生僻词语较少出现,例如姓名、医药名和地名等,不能形成有效的概率统计模型,语言模型中生僻词语对应字符串的概率值非常低,因此当需要识别用户说出的较为生僻的词语的时候,往往会发生数据偏移问题,即识别出的字符串不是用户说出的词语,也就是说对于生僻词语的语音的识别准确率较低,难以取得较好的识别结果。

发明内容

有鉴于此,本发明的主要目的在于提供一种自动语音识别方法和系统,以提高对生僻词语的语音的识别准确率。

本发明的一种技术方案是这样实现的:

一种语音识别处理方法,包括:

对词进行分类,将总体语言模型中的生僻词替换为其所属的分类标记;

构建主解码资源网络,包括:根据语音模型、主网络词典以及总体语言模型,构建主解码资源网络;在构建该主解码资源网络的过程中,在该主解码资源网络中加入分类标记节点,并将分类标记节点与其它节点用边连接;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310037464.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top