[发明专利]一种减弱语音识别中说话人影响的方法有效
| 申请号: | 201810257420.6 | 申请日: | 2018-03-27 |
| 公开(公告)号: | CN108492821B | 公开(公告)日: | 2021-10-22 |
| 发明(设计)人: | 涂志强;梁亚玲;杜明辉 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16;G10L15/26 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 刘巧霞 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 减弱 语音 识别 说话 人影 方法 | ||
1.一种减弱语音识别中说话人影响的方法,其特征在于,具体步骤包括:
(1)获取实验数据,对实验数据按照提供的默认划分方式进行划分;所述默认划分方式将实验数据划分为验证集、测试集和训练集;
(2)对数据进行基本声学特征提取;
(3)对步骤(2)所得的最终特征进行基准语音识别系统训练,具体为:
(3.1)利用卷积神经网络和门控循环神经网络搭建基准语音识别系统;
(3.2)将步骤(2)所得的最终特征送入基准语音识别系统进行模型训练;
(4)将步骤(2)所得的最终特征进行说话人扰动信息提取器的训练;
(5)将步骤(2)所得的最终特征进行带说话人扰动信息提取器的语音识别系统的训练;
(6)获取最终的实验结果。
2.根据权利要求1所述的一种减弱语音识别中说话人影响的方法,其特征在于,所述数据划分方式,具体为:数据划分采用数据提供的默认划分方式进行划分,其中验证集和测试集各占全部数据的10%,剩下的80%作为训练集。
3.根据权利要求1所述的一种减弱语音识别中说话人影响的方法,其特征在于,所述步骤(2)具体包括:
(2.1)采用melspectrogram函数提取梅尔滤波器组特征,设置函数参数;
(2.2)对梅尔滤波器组特征取自然对数以进行同态信号处理,即把特征中的乘性分量转化为加性分量;
(2.3)使用delta函数提取梅尔滤波器组的一阶动态特征,设置函数参数;
(2.4)使用delta函数处理梅尔滤波器组的一阶动态特征,提取梅尔滤波器组的二阶动态特征,设置函数参数;
(2.5)将梅尔滤波器组的特征、一阶动态特征以及二阶动态特征组合成一个三通道的特征图,作为最终的特征。
4.根据权利要求1所述的一种减弱语音识别中说话人影响的方法,其特征在于,所述步骤(4)具体包括:
(4.1)对步骤(1)得到的训练集进行初步筛选,从每个说话人的语音样本中随机调出20%样本作为验证集,剩下的样本作为训练集;
(4.2)利用卷积神经网络和门控循环神经网络搭建一个说话人识别系统来完成说话人扰动信息提取器的训练;
(4.3)将步骤(2)所提取的最终特征送入说话人识别系统进行模型训练,将保留在验证集上取得最高识别率时的参数作为说话人识别系统的最终参数;
(4.4)对说话人识别系统的训练结束后,从说话人识别系统中去掉最后两层,获得说话人扰动信息提取器。
5.根据权利要求1所述的一种减弱语音识别中说话人影响的方法,其特征在于,所述步骤(5)具体包括:
(5.1)利用基准语音识别系统和说话人扰动信息提取器构建带说话人扰动信息提取器的语音识别系统,使用基准语音识别系统中的subNet1的参数来初始化带说话人扰动信息提取器的语音识别系统中的subNet3的参数;
(5.2)将步骤(2)所提取的最终特征送入带说话人扰动信息提取器的语音识别系统进行模型训练,保留在验证集上取得最高识别率时的参数作为带说话人扰动信息提取器的语音识别系统的最终参数。
6.根据权利要求1所述的一种减弱语音识别中说话人影响的方法,其特征在于,步骤(3.1)中所述基准语音识别系统所采用的激活函数分别为tanh、relu、softmax,具体计算公式如下所示:
relu(x)=max(x,0) (2)
其中,x表示输入,max表示取数值大的那一个数,C表示x中元素的个数,xi、xj则分别表示x中的第i个、第j个元素。
7.根据权利要求5所述的一种减弱语音识别中说话人影响的方法,其特征在于,所述步骤(5.1)具体为:
采用步骤(4)所得到的说话人扰动信息提取器,固定说话人扰动信息提取器的参数,使所述参数在带说话人扰动信息提取器的语音识别系统的训练过程中不变;使用基准语音识别系统中的subNet1的参数来初始化带说话人扰动信息提取器的语音识别系统中的subNet3的参数;带说话人扰动信息提取器的语音识别系统中的subNet2部分是用来减弱说话人的影响;因为扰动有正有负,因此需要进行求和操作和求差操作,使得subNet3的输出中消去说话人不同带来的扰动,具体计算公式为:
p1=tanh(W1·iEx(x)+b1) (4)
p2=W2·p1+b2 (5)
df=subNet3(x)-p2 (6)
sm=subNet3(x)+p2 (7)
y1=relu(df) (8)
y2=relu(sm) (9)
y3=Concatenate(y1,y2) (10)
y4=W3·y3+b3 (11)
y=BN(y4) (12)
其中,x表示步骤(2)所提取的最终特征,即模型的输入;iEx(x)和subNet3(x)分别表示模型中说话人扰动信息提取器部分的输出和subNet3部分的输出;BN即BatchNormalization,用以进行0均值1标准差的标准化处理;{W1,b1}、{W2,b2}、{W3,b3}分别是带说话人扰动信息提取器的语音识别系统中TDense2、TDense3、TDense4的参数;Concatenate函数表示进行向量拼接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810257420.6/1.html,转载请声明来源钻瓜专利网。





