[发明专利]提高统计语言模型准确度的方法及系统在审
| 申请号: | 201410366038.0 | 申请日: | 2014-07-28 |
| 公开(公告)号: | CN104112447A | 公开(公告)日: | 2014-10-22 |
| 发明(设计)人: | 殷永光;鹿晓亮;梁修存 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06 |
| 代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 王立民;逢京喜 |
| 地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 提高 统计 语言 模型 准确度 方法 系统 | ||
1.一种提高统计语言模型准确度的方法,其特征在于,包括:
获取训练语料,并将所述训练语料分为两部分:训练集和保留集;
在所述训练集上统计各阶语言模型对应的词频,并对词频为0的语言模型设置对应的补偿参数,所述补偿参数的取值在设定范围内;
在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值,获得使目标函数最小的最优补偿参数;
利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率,得到统计语言模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述训练语料分为两部分包括:
按照任意比例将所述训练语料分为两部分。
3.根据权利要求1所述的方法,其特征在于,所述设定范围为0~1。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述目标函数为语言模型的困惑度PP:
P(Si)表示所述保留集语料中的词串序列Si在所述训练集语料中出现的概率,ni表示所述词串序列Si在所述训练集语料中出现的次数。
5.根据权利要求4所述的方法,其特征在于,所述利用对应所述语言模型的最优补偿参数对所述语言模型进行优化,得到优化后的语言模型包括:
对于同阶的非零概率部分,
对于同阶的零概率部分,
其中,词串序列h=Wi-n+1,...,Wi-1,词串序列h′=Wi-n+2,...,Wi-1,C(h)表示h在所述训练集语料中出现的次数;C(h,Wi)表示(h,Wi)在所述训练集语料中出现的次数;λ(h)表示对应h的最优补偿参数,
6.一种提高统计语言模型准确度的系统,其特征在于,包括:
语料获取模块,用于获取训练语料;
拆分模块,用于将所述训练语料分为两部分:训练集和保留集;
统计模块,用于在所述训练集上统计各阶语言模型对应的词频,并对词频为0的语言模型设置对应的补偿参数,所述补偿参数的取值在设定范围内;
最优补偿参数获取模块,用于在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值,获得使目标函数最小的最优补偿参数;
优化模块,用于利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率,得到统计语言模型。
7.根据权利要求6所述的系统,其特征在于,所述拆分模块按照任意比例将所述训练语料分为两部分。
8.根据权利要求6所述的系统,其特征在于,所述设定范围为0~1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410366038.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于通信高速数据电缆的加工装置
- 下一篇:安全预警方法、装置、系统及设备





