[发明专利]一种融合语音增强的语音识别方法在审

申请号：	202210064822.0	申请日：	2022-01-20
公开（公告）号：	CN114495969A	公开（公告）日：	2022-05-13
发明（设计）人：	李华蓉;宋南;汤国强;吴剑锋;姚伟烈;相若晨;钱柏丞	申请（专利权）人：	南京烽火天地通信科技有限公司
主分类号：	G10L21/0224	分类号：	G10L21/0224;G10L21/0232;G10L25/30;G10L15/26;G10L15/06;G06N3/04;G06N3/08
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	陆志斌
地址：	211161 江苏省南京***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合语音增强识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种融合语音增强的语音识别方法，涉及语音识别技术领域，通过对实际环境中的干扰噪声强度进行分析，选择是否采用噪声模式来抑制待识别语音中的干扰噪声，然后送入识别模型进行语音到文本的识别。该种融合语音增强的语音识别方法，以深度神经网络来构建前端语音增强模块和后端的语音识别模块，同时采用“分而治之”的思想，实现不同的前端语音处理模式，包括理想模式和噪音模式，能根据实际环境选择对应的模式进行处理，进而降低外界干扰，提升语音识别的准确率。

技术领域

本发明涉及语音识别技术领域，具体为一种融合语音增强的语音识别方法。

背景技术

语音交互是智能交互实现的重要方式，语音识别又是支撑语音交互的关键技术。现有的语音识别技术在实际应用中也取得了很好的识别效果，如语音转文字、语音助手、智能机器人等；但目前的语音识别算法很少考虑环境噪声对识别过程的影响，因而导致模型的鲁棒性较差，在实际环境的应用场景受限较大，只有在相对安静的条件下才能获得较准确的识别结果；主要由于用于模型训练的语音数据较为理想，而现实环境中产生的音频受各式各样的噪声影响，很大程度上降低了识别模型提取的声学特征的质量，从而降低语音识别的准确率。

为提升语音识别技术在实际应用环境中的鲁棒性，针对现有语音识别技术的不足，我们对此做出改进，提出一种融合语音增强的语音识别方法。

发明内容

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明一种融合语音增强的语音识别方法，目的是融合语音增强前端技术，提供噪声模式，为实现更为精确的语音识别提供保障。实现精确的语音识别需要待识别语音拥有较高的质量，通过对实际环境中的干扰噪声强度进行分析，选择是否采用噪声模式来抑制待识别语音中的干扰噪声，然后送入识别模型进行语音到文本的识别，具体包括如下步骤：

S1、采用公开数据集和公开噪声数据作为模型训练数据，然后根据SNR的大小对语音数据和噪声数据进行混合，得到共N条带噪语音，模拟出近似于实际环境下的受干扰的语音，并按8∶2的比例划分为训练数据和测试数据；

S2、构建语音增强模型对S1建立的混合语音训练集和测试集进行语音增强，增强模型采用堆叠式双信号转换长短时记忆网络结构DTLN，由频域分离核心和时域分离核心两个分离核心串联组成，对混合语音进行频域和时域上的降噪处理，实现实时增强功能；

S3、混合语音首先通过第一阶段的频域分离核心，以训练集中第i条混合语音为例，输入为混合语音的时域信号xi(n)，n为语音数据的采样点数；先对xi(n)进行预加重处理，提升信号中高频成分的幅值信息；然后采用短时傅立叶变化对xi(n)进行时频转换为Xi(m,ω)·ejφi(m,ω)，其中Xi(m,ω)、φi(m,ω)分别为混合语音第m帧的幅度谱数据和相位数据，短时傅立叶变化变换过程中加汉明窗进行分帧，帧长和帧移分别设置为32ms、8ms，FFT点数取512；再将大小为[总帧数，256]的数据送入两层的长短时记忆网络用以提取时序相关的特征，每层长短时记忆网络神经元设置为128，得到大小为[总帧数，128]的特征向量；再经过一个全连接层和Sigmoid激活函数层得到大小为[总帧数，256]的时频掩码；最后与输入的幅度谱数据进行点乘获得频域降噪后的幅度谱；

S4、将S3获得的增强幅度谱数据送入第二阶段时域分离核心进行时域降噪，首先利用短时傅立叶逆变换将增强幅度谱转换回时域数据，相位采用混合相位φi(m,ω)；然后经过一个一维卷积层，卷积核设置为256，得到时域卷积特征[总帧数，256]；再对每帧数据进行单独归一化；然后经过与第一阶段相同设置的两个长短时记忆网络层+全连接层+Sigmoid激活函数层得到时域掩码，再与一维卷积输出结果相乘实现时域降噪；最后通过一个一维卷积网络还原数据为[总帧数，512]维度，通过重叠相加得到最终的增强语音yi(n)；

S5、采用最小二乘损失函数衡量目标语音与增强语音间的差距，依据误差进行过梯度反传来更新网络参数，至此实现语音增强模块功能；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京烽火天地通信科技有限公司，未经南京烽火天地通信科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210064822.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种白光LED灯具色片颜色一致选择方法、介质及设备
下一篇：显示基板及其检测方法、显示装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种融合语音增强的语音识别方法在审

专利文献下载