[发明专利]一种建立语言模型的方法、语音识别的方法及其装置有效
申请号: | 201210050076.6 | 申请日: | 2012-02-29 |
公开(公告)号: | CN102623010A | 公开(公告)日: | 2012-08-01 |
发明(设计)人: | 万广鲁 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/08 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 建立 语言 模型 方法 语音 识别 及其 装置 | ||
【技术领域】
本发明涉及自然语言处理技术,特别涉及一种建立语言模型的方法、语音识别的方法及其装置。
【背景技术】
随着搜索引擎技术和移动通讯技术的发展,如今采用语音搜索的方式获取信息已经变得非常普遍。语音搜索不需要人们通过文字输入即可发出搜索请求,使得人们能够在运动状态时也轻易获取相关信息,给人们的生活带来了极大的便利。
语音搜索中,首先需要对用户的语音进行识别,只有准确地将用户的语音表述识别成一致的语义文本,才能向用户返回准确的检索结果。而语音识别的结果依赖于在语音识别中使用的语言模型,现有的语音搜索中的语音识别系统,使用的语言模型一旦被训练好,其中的参数通常不再改变,这样的语言模型难以反映用户检索行为的变化,因此在面对用户对一些热点事件的语音搜索行为时,容易出现识别结果不准确的现象。例如现实生活中突发的某种事件,常被用户冠名为“某某门”,这种“某某门”的搜索词由于过去从来没出现过,在现有的语言模型中出现的概率很低,因此最终语音识别系统对这种搜索词的识别率就会降低。
【发明内容】
本发明所要解决的技术问题是提供一种建立语言模型的方法、语音识别的方法及其装置,以解决现有的语音识别中语言模型不能随着用户的检索行为发生改变从而导致识别率降低的问题。
本发明为解决技术问题而采用的技术方案是提供一种建立语言模型的方法,包括:获取时效性搜索语料;利用获取到的时效性搜索语料进行语言模型训练,以得到时效性语言模型;将所述时效性语言模型与背景语言模型融合,以得到最终的识别语言模型,其中所述背景语言模型用于描述用户的长期检索行为。
根据本发明之一优选实施例,所述背景语言模型为已有的识别语言模型。
根据本发明之一优选实施例,获取时效性搜索语料的步骤包括:从搜索引擎服务器上获取最近的设定时间长度内的检索日志并将获取的检索日志作为时效性搜索语料;或者,将在最近的设定时间长度内对用户的语音搜索查询的识别结果作为时效性搜索语料。
根据本发明之一优选实施例,在将所述时效性语言模型与所述背景语言模型融合时,将所述时效性语言模型中的参数与所述背景语言模型中的参数进行插值,以得到所述识别语言模型中的参数,其中所述参数为各N元词组N-Gram的概率值。
根据本发明之一优选实施例,将所述时效性语言模型中的参数与所述背景语言模型中的参数进行插值时,对所述时效性语言模型中的参数进行加权。
本发明还提供了一种语音识别的方法,包括:获取用户的语音搜索查询;使用前文所述建立语言模型的方法建立的识别语言模型对用户的语音搜索查询进行识别,得到识别结果。
根据本发明之一优选实施例,所述方法进一步包括:向用户返回与所述识别结果相关的检索结果。
根据本发明之一优选实施例,对用户的语音搜索查询进行识别的步骤包括:利用声学模型将用户的语音搜索查询转化为相应的音节序列;获取与所述音节序列对应的一个以上的候选词序列;使用所述识别语言模型计算每个候选词序列在所述识别语言模型中出现的概率,并选择出现概率最大的候选词序列作为对用户的语音搜索查询的识别结果。
本发明还提供了一种建立语言模型的装置,包括:获取单元,用于获取时效性搜索语料;训练单元,用于利用获取到的时效性搜索语料进行语言模型训练,以得到时效性语言模型;融合单元,用于将所述时效性语言模型与背景语言模型融合,以得到最终的识别语言模型,其中背景语言模型用于描述用户的长期检索行为。
根据本发明之一优选实施例,所述背景语言模型为已有的识别语言模型。
根据本发明之一优选实施例,所述获取单元获取时效性搜索语料时,从搜索引擎服务器上获取在最近的设定时间长度内的检索日志并将获取的检索日志作为时效性搜索语料;或者,将在最近的设定时间长度内对用户的语音搜索查询的识别结果作为时效性搜索语料。
根据本发明之一优选实施例,所述融合单元在将所述时效性语言模型与所述背景语言模型融合时,将所述时效性语言模型中的参数与所述背景语言模型中的参数进行插值,以得到所述识别语言模型中的参数,其中所述参数为各N元词组N-Gram的概率值。
根据本发明之一优选实施例,所述融合单元在将所述时效性语言模型中的参数与所述背景语言模型中的参数进行插值时,对所述时效性语言模型中的参数进行加权。
本发明还提供了一种语音识别的装置,包括:接收单元,用于获取用户的语音搜索查询;识别单元,用于使用前文所述建立语言模型的装置建立的识别语言模型对用户的语音搜索查询进行识别,得到识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210050076.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种利用黑匣子获取崩溃信息的方法、黑匣子及服务器
- 下一篇:受控的种子润湿