[发明专利]语音识别的建模方法、装置及设备有效
申请号: | 201910295306.7 | 申请日: | 2019-04-12 |
公开(公告)号: | CN109887497B | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 袁胜龙 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;G10L15/26;G10L25/24;G10L25/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种语音识别的建模方法、装置及设备,其中,方法包括:确定N类标签;根据普通话的语音数据训练和N类标签构建语音识别模型;根据语音识别模型获取P种方言的语音数据的识别文本;根据识别文本和标注的参考文本确定错误率,对于P种方言中每一种方言,根据每个字的第一错误率和普通话中每个字的第二错误率确定每个字的声学特性差异值,根据差异值大于预设阈值的字对应的M类标签新生成M类目标标签;根据普通话和P种方言的语音数据训练声学模型,声学模型的输出为N类标签和P种方言中每一种方言对应的M类目标标签。由此,实现了普通话和方言混合建模,在保证识别准确性的同时,使同一个模型既支持普通话,又能支持多种方言。 | ||
搜索关键词: | 语音 识别 建模 方法 装置 设备 | ||
【主权项】:
1.一种语音识别的建模方法,其特征在于,包括:根据预先训练的对齐模型分别对普通话的第一语音数据和P种方言的第一语音数据进行处理,获取每帧第一语音数据对应的标签,统计输出的标签并对相同类别的标签进行去重,确定N类标签,其中,N为正整数,P为正整数;根据普通话语音样本数据训练神经网络,并根据所述神经网络构建语音识别模型,其中,所述神经网络的输出为所述N类标签;将所述P种方言的第二语音数据分别输入到所述语音识别模型中进行处理,获取方言的第二语音数据的识别文本;根据所述识别文本和标注的参考文本,对于所述P种方言中每一种方言确定每个字的第一错误率,根据所述每个字的第一错误率和普通话中每个字的第二错误率确定每个字的声学特性差异值,根据所述差异值大于预设阈值的字对应的M类标签新生成M类目标标签,其中,M为大于等于零的整数,所述第二错误率是根据所述语音识别模型对普通话的第二语音数据的处理结果得到的;根据普通话的第三语音数据和所述P种方言的第三语音数据训练声学模型,其中,所述声学模型的输出为所述N类标签和所述P种方言中每一种方言对应的所述M类目标标签。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910295306.7/,转载请声明来源钻瓜专利网。