[发明专利]提高统计语言模型准确度的方法及系统在审

申请号：	201410366038.0	申请日：	2014-07-28
公开（公告）号：	CN104112447A	公开（公告）日：	2014-10-22
发明（设计）人：	殷永光;鹿晓亮;梁修存	申请（专利权）人：	科大讯飞股份有限公司
主分类号：	G10L15/06	分类号：	G10L15/06
代理公司：	北京维澳专利代理有限公司 11252	代理人：	王立民;逢京喜
地址：	230088 安徽省***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	提高统计语言模型准确度方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语音识别技术领域，具体涉及一种提高统计语言模型准确度的方法及系统。

背景技术

统计语言模型在自然语言处理技术中占有重要地位，在语音识别、光学字符识别、机器翻译、汉语拼音输入、信息检索等许多系统中都得到了成功的应用。在语音识别中，计算机需要知道一个文字序列是否能构成一个大家理解而且有意义的句子，然后显示或者打印给使用者。

例如：给定拼音串：ta shi yan jiu sheng wu de；

可能的汉字串有以下几种：踏实研究生物的、他实验救生物的、他使烟酒生物的、他是研究生物的等等。

如何让计算机选择一个最可能的汉字串，就要用到统计语言模型。

在统计语言模型中，判断一个句子是否合理，就要看它的可能性大小。假定S表示一个有意义的句子，由一连串特定顺序排列的词W₁,W₂,...,W_n组成，即S＝W₁,W₂,...,W_n，n是句子的长度，则S在文本中出现的概率为：

P(S)＝P(W₁,W₂,...,W_n)

由条件概率可知，S这个序列在文本中出现的概率等于每一个词出现的条件概率相乘，即：

P(S)＝P(W₁)×P(W₂|W₁)×P(W₃|W₁,W₂)×...×P(W_n|W₁,W₂,...,W_n-1)

其中，P(W₁)表示第一个词出现的概率，P(W₂|W₁)表示在已知第一个词的前提下，第二个词出现的概率，依此类推。

但是依然有一个问题，就是文本序列越靠后的词，依赖的词越多，到最后一个词时可能都无法估算。为此，业界给出了一个简单有效的方法，即假设任意一个词W_i出现的概率只与它前面的词W_i-1有关，则上式(2)简化为：

P(S)＝P(W₁)×P(W₂|W₁)×P(W₃|W₂)×...×P(W_n|W_n-1)

但是，对于统计语言模型，还有很多细节问题需要解决，其中一个问题就是零概率问题。而且，随着阶数的增大，估计为0的模型数越来越多，对语音识别正确率有较大影响。为此，现有技术中通过平滑处理来改进模型的整体正确率。目前，统计语言模型的平滑方法主要有：绝对折扣平滑、Kneser-Ney折扣平滑、witten-bell折扣平滑等。这几种方法，都是在使非零概率下降的时候，同时改变了非零概率之间的分布比例，导致语言模型困惑度上升，整体正确率下降。

发明内容

本发明实施例提供一种提高统计语言模型准确度的方法及系统，在不改变非零概率之间的分布比例的情况下，消除零概率，提高语言模型的整体识别率。

为此，本发明实施例提供如下技术方案：

一种提高统计语言模型准确度的方法，包括：

获取训练语料，并将所述训练语料分为两部分：训练集和保留集；

在所述训练集上统计各阶语言模型对应的词频，并对词频为0的语言模型设置对应的补偿参数，所述补偿参数的取值在设定范围内；

在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值，获得使目标函数最小的最优补偿参数；

利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率，得到统计语言模型。

优选地，所述将所述训练语料分为两部分包括：

按照任意比例将所述训练语料分为两部分。

优选地，所述设定范围为0～1。

优选地，所述目标函数为语言模型的困惑度PP：