[发明专利]一种提升语音识别准确性的方法和设备有效

申请号：	202110132053.9	申请日：	2021-01-30
公开（公告）号：	CN112908305B	公开（公告）日：	2023-03-21
发明（设计）人：	范红亮;蒋莹;李轶杰;梁家恩	申请（专利权）人：	云知声智能科技股份有限公司;厦门云知芯智能科技有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06
代理公司：	暂无信息	代理人：	暂无信息
地址：	100096 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种提升语音识别准确性方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种提升语音识别准确性的方法和设备，应用于设置有SDM的用于语音识别的ASR系统，ASR系统设置有用于进行解码的解码网络；该方法包括：通过SDM获取输入ASR系统的原始音频和解码网络输出的历史解码信息；通过SDM对原始音频进行处理，得到原始音频的多个信号特征；通过SDM基于多个信号特征以及历史解码信息进行处理，得到原始音频的最终特征。在ASR系统解码阶段新增SDM，充分利用了各个维度的信息，包括直接从音频获取的信号特征、从历史解码信息中得到的上下文信息等，结合ASR系统中原有的通过海量数据训练出的声学模型，能够提升ASR系统在任何复杂场景下，对输入语音的打分和辨识能力，提升识别率。

技术领域

本发明涉及语音识别技术领域，具体涉及一种提升语音识别准确性的方法和设备。

背景技术

ASR(Automatic Speech Recognition，语音识别)系统的性能，受环境因素的影响很大，当遇到复杂场景，如环境噪声很大或者与训练数据偏差较大时，对识别引擎性能会提出很大的挑战性。特别是声学打分会非常不准确，对识别结果起着至关重要的影响，引擎声学打分会不准，进而也会影响最终识别结果的准确性。

ASR系统在复杂场景下的识别错误，最常见的一种错误类型是由于背景噪声(环境噪声或背景人声等)导致的插入错误：由于模型结构和训练数据的局限性，很多复杂场景下的人声和非人声无法做出很好的区分，会将背景的非人声误识别成人声，从而导致出现多余的识别结果，即产生插入错误。

而为了应对复杂场景下的高插入错误，目前的一般做法是，在ASR系统引擎前端设置一个VAD(Voice Activity Detection，静音抑制，又称语音活动侦测)模块，先把人声和非人声区分开，然后只将纯人声部分送入ASR系统引擎做识别。但是这种方式的缺点也很明显，具体有以下几点：

1.VAD并非ASR系统的标配，很多ASR系统并没有VAD模块；

2.即便有使用了VAD，将人声部分提取出来了，最终对于识别而言效果并不一定很好(一方面，VAD对人声的判断不一定准确，另外ASR系统识别需要借助上下文信息，即便是非人声音频，对于识别往往也很有用。所以，将生硬截出的语音部分送入ASR系统，效果往往不理想)

3.VAD并不能区分目标人声和背景人声干扰(如电视背景噪音)。

由此，目前需要有一种更优的方案来解决现有技术中的问题。

发明内容

本发明提供一种提升语音识别准确性的方法和设备，能够解决现有技术中识别率不高的技术问题。

本发明解决上述技术问题的技术方案如下：

本发明实施例提出了一种提升语音识别准确性的方法，应用于设置有SDM的用于语音识别的ASR系统，所述ASR系统设置有用于进行解码的解码网络；该方法包括：

通过所述SDM获取输入所述ASR系统的原始音频和所述解码网络输出的历史解码信息；

通过所述SDM对所述原始音频进行处理，得到所述原始音频的多个信号特征；