[发明专利]一种语音建模方法及装置有效
申请号: | 201811390640.2 | 申请日: | 2018-11-21 |
公开(公告)号: | CN109243429B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 唐浩元;王佳珺;王欢良;马殿昌 | 申请(专利权)人: | 苏州奇梦者网络科技有限公司 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/02;G10L25/24 |
代理公司: | 苏州国诚专利代理有限公司 32293 | 代理人: | 秦开举 |
地址: | 215024 江苏省苏州市工业园区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 建模 方法 装置 | ||
本发明涉及一种语音建模方法及装置,所述方法包括:获取在简单场景下录制的第一语音信号;获取所述第一语音信号的第一音素对齐序列;向所述第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号;对所述仿真语音信号中的非语音段进行分类,并对每一类分别建立对应的一个用于建模的目标音素;根据所述仿真语音信号中的噪声类别,将所述仿真语音信号中的第二音素对齐序列中的非语音段噪声音素分别替换成对应的所述目标音素;其中,所述第二音素对齐序列与所述第一音素对齐序列相同;基于替换后的所述仿真语音信号生成目标声学模型。本发明可以提高在目标复杂场景下的语音识别性能。
技术领域
本发明涉及语音识别领域,特别是涉及一种语音建模方法及装置。
背景技术
语音识别技术作为人工智能的关键技术之一,能够将输入的语音信号转变成文字信号,进而方便存储,检索和传播。近年来随着移动互联网的兴起和深度神经网络技术在语音识别技术中的快速发展,语音识别技术在简单场景下的识别性能大幅提升。例如,语音识别技术在搜索引擎,输入法,故事机等简单场景下的产品领域中被广泛使用,而在复杂场景下的产品领域如车载,智能家居等,语音识别性能随着场景复杂度上升而快速下降。
传统语音识别采用音素混合高斯-隐马尔科夫模型(以下简称HMM-GMM模型)对语音信号进行建模。近年来随着深度学习技术的快速发展,基于深度学习的语音识别系统受到越来越多的关注。隐马尔科夫-深度神经网络混合模型(以下简称HMM-DNN模型)的提出大幅度提升语音识别的准确度。隐马尔科夫-深度神经网络采用监督学习的方式,利用其强大的非线性拟合能力,从原始数据中挖掘出更加适合分类的特征表达形式,建立起语音特征序列到音素对齐序列的映射,进而提高语音识别准确度。
语音识别在实际应用中往往会面临非常复杂的目标场景。例如在狭小空间下语音信号会引入强混响,在车载环境下会引入强噪声(包括人声噪声,车喇叭,空调声等),在低品质麦克风下会引入信道畸变。这些情况都会改变语音信号中语音段和非语音段的统计特性,其中非语音段的统计特性在复杂目标场景下会随着该场景下噪声类型的变化而急剧变化(如人声噪声,车喇叭声,空调声等)。当前的语音建模通常是以音素为单元进行建模,其中对非语音段采用一个音素”sil”进行建模,难以很好的对复杂目标场景下的非语音段的统计特性进行建模。
语音建模的中大量的训练语音信号通常是在简单场景(如安静环境)下录制的,复杂目标场景下的语音信号通常难以获得。而复杂目标场景中语音段的统计特性往往会受到混响,噪声等的影响。另外受成本因素影响,复杂目标场景中语音采集的麦克风与已有训练语音信号所采用的麦克风在信道上存在较大差异,这也将在语音信号中引入额外的信道畸变。上述混响,噪声,信道畸变均会影响语音信号的统计特性,使复杂目标场景下测试语音信号与训练使用语音信号存在统计特性失配。由于以上原因训练得到的模型在复杂目标场景下的识别性能往往会显著下降。
发明内容
基于此,有必要提供一种语音建模方法及装置,提升在目标复杂场景下对非语音段的建模能力,降低训练语音与复杂目标场景下测试语音之间的统计特性失配,进而提升在目标复杂场景下识别性能。
一种语音建模方法,所述方法包括:
获取在简单场景下录制的第一语音信号;
获取所述第一语音信号的第一音素对齐序列;
向所述第一语音信号添加信道畸变、混响和噪声,生成仿真语音信号;
对所述仿真语音信号中的非语音段进行分类,并对每一类分别建立对应的一个用于建模的目标音素;
根据所述仿真语音信号中的噪声类别,将所述仿真语音信号中的第二音素对齐序列中的非语音段噪声音素分别替换成对应的所述目标音素;其中,所述第二音素对齐序列与所述第一音素对齐序列相同;
基于替换后的所述仿真语音信号生成目标声学模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州奇梦者网络科技有限公司,未经苏州奇梦者网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811390640.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车辆故障诊断方法及装置
- 下一篇:一种语音识别方法及装置