[发明专利]一种声学语言模型训练方法和装置有效
申请号: | 201310040085.1 | 申请日: | 2013-02-01 |
公开(公告)号: | CN103971677A | 公开(公告)日: | 2014-08-06 |
发明(设计)人: | 陆读羚;李露;饶丰;陈波;卢鲤;张翔;王尔玉;岳帅 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张驰;宋志强 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声学 语言 模型 训练 方法 装置 | ||
1.一种声学语言模型训练方法,其特征在于,该方法包括:
利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;
对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;
对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;
利用该有类别标签的第二分词数据获取声学语言模型。
2.根据权利要求1所述的声学语言模型训练方法,其特征在于,所述对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据包括:
在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇,并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
3.根据权利要求1所述的声学语言模型训练方法,其特征在于,该方法在获得有类别标签的第二分词数据之后,进一步包括:
判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同,如果是,则利用该有类别标签的第二分词数据获取声学语言模型,如果不是,则对有类别标签的第二分词数据执行词类替换。
4.根据权利要求2所述的声学语言模型训练方法,其特征在于,在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后,该方法进一步包括:
判断在分类词汇表中检索出的词汇长度是否大于预先设定的匹配词长度门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
5.根据权利要求2所述的声学语言模型训练方法,其特征在于,在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后,该方法进一步包括:
判断在分类词汇表中检索出的词汇的出现频率是否大于预先设定的词频门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
6.根据权利要求1所述的声学语言模型训练方法,其特征在于,该方法进一步包括:
在利用无类别标签的语言模型对训练语料进行分词之前,对该训练语料作出归一化处理。
7.根据权利要求1所述的声学语言模型训练方法,其特征在于,该方法进一步包括:
接收输入语音;
利用该声学语言模型针对输入语音执行语音识别处理。
8.一种声学语言模型训练装置,其特征在于,该装置包括分词单元、词类替换单元、语言模型训练单元和声学语言模型获取单元,其中:
分词单元,用于利用无类别标签的语言模型对训练语料进行分词,以获得无类别标签的分词数据;
词类替换单元,用于对无类别标签的分词数据执行词类替换,以获得有类别标签的第一分词数据;
语言模型训练单元,用于对有类别标签的第一分词数据进行训练,以获得有类别标签的语言模型,并利用该有类别标签的语言模型对该训练语料进行分词,以获得有类别标签的第二分词数据;
声学语言模型获取单元,用于利用该有类别标签的第二分词数据获取声学语言模型。
9.根据权利要求8所述的声学语言模型训练装置,其特征在于,
词类替换单元,用于在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇,并将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
10.根据权利要求8所述的声学语言模型训练装置,其特征在于,
语言模型训练单元,进一步用于在获得有类别标签的第二分词数据之后,判断有类别标签的第一分词数据与有类别标签的第二分词数据的类别标签替换位置是否相同,如果是,则使能声学语言模型获取单元,如果不是,则使能词类替换单元对有类别标签的第二分词数据执行词类替换。
11.根据权利要求9所述的声学语言模型训练装置,其特征在于,
词类替换单元,用于在预先建立的分类词汇表中检索与该无类别标签的分词数据相同的词汇之后,进一步判断在分类词汇表中检索出的词汇长度是否大于预先设定的匹配词长度门限值,如果是,则将检索出词汇的类别标签设置为该无类别标签的分词数据的类别标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310040085.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于仿真实验的硬件平台
- 下一篇:指针盘走时多彩钟