[发明专利]一种端到端远场语音识别方法及系统有效
申请号: | 201911415037.X | 申请日: | 2019-12-31 |
公开(公告)号: | CN111179920B | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 黎塔;邬龙;张鹏远;颜永红 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L21/02;G10L21/0216 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 端到端远场 语音 识别 方法 系统 | ||
本发明提供一种端到端远场语音识别方法及系统。在一个实施例中,将多通道信号的频谱特征和空间特征进行融合,并输入掩蔽网络中计算多通道信号的掩蔽值;根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;将增强后的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;将优化后的多通道信号作为最终识别结果,并输出。通过将神经网络波束形成和声学建模结合进行联合优化以及将最大信噪比优化准则和语音识别准则进行联合优化。解决了前端语音增强和语音识非一致优化的问题。
技术领域
本发明涉及语音识别技术领域,尤其涉及一种端到端远场语音识别方法及系统。
背景技术
语音识别技术是将输入的语音转换成文本的重要技术,虽然神经网络声学模型很大程度上降低了近场语音识别系统的识别错误率,但识别系统对远场语音的识别准确率仍远低于对近场语音的识别准确率。远场语音中存在的背景噪声、混响以及人声干扰是影响语音识别技术广泛实用化的一个关键因素。
迄今为止,前人已经提出不少旨在提高远场语音识别性能的方法。这些方法大致可以概括成三类:一是采用两阶段训练算法,即先对语音信号进行增强,然后将增强后的信号进行后端声学建模;二是直接利用远场语音数据训练声学模型,并在训练过程中加入混响信息等以及使用更复杂的神经网络结构来进行声学建模;三是将语音信号增强和声学建模放在一个框架里面进行联合优化。
为此本发明提出一种基于空间特征和最大信噪比准则的端到端远场语音识别方法。首先将多通道语音的频谱特征和空间特征进行融合作为时频掩蔽网络的输入,然后利用估计出来的掩蔽值来计算波束形成的系数,进而进行多通道语音增强。最后,将增强后的信号送入基于连接主义分类和注意力机制的编码解码网络中进行声学建模,并在优化过程中加入最大信噪比准则进行联合优化,最终得到识别的结果。
发明内容
有鉴于此,本申请实施例提供了一种端到端远场语音识别方法及系统。
第一方面,本发明申请提供一种端到端远场语音识别方法,包括:
将多通道信号的频谱特征和空间特征进行融合,并输入掩蔽网络中计算多通道信号的掩蔽值;
根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;
将增强的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;
将优化后的多通道信号作为最终识别结果,并输出。
可选地,所述空间特征包括:幅值平方相干系数、多通道相位差和多通道幅度差中的一种或多种。
可选地,所述计算多通道信号的掩蔽值包括:分别计算多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值。
可选地,所述根据所述掩蔽值计算多通道信号的波束形成系数包括:
分别对多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值求平均值;
根据多通道语音信号和多通道噪声信号的平均掩蔽值计算多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵;
根据所述多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵计算多通道信号的波束形成系数。
可选地,所述编码解码网络为基于连接主义和注意力机制的编码解码网络。
第二方面,本发明申请提供一种端到端语音识别系统,包括:
采集单元:用于获取多通道信号,并将多通道信号的频谱特征和空间特征进行融合后输入掩蔽网络中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911415037.X/2.html,转载请声明来源钻瓜专利网。