[发明专利]一种端到端远场语音识别方法及系统有效
申请号: | 201911415037.X | 申请日: | 2019-12-31 |
公开(公告)号: | CN111179920B | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 黎塔;邬龙;张鹏远;颜永红 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L21/02;G10L21/0216 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 端到端远场 语音 识别 方法 系统 | ||
1.一种端到端远场语音识别方法,包括:
将多通道信号的频谱特征和空间特征进行融合,并输入掩蔽网络中计算多通道信号的掩蔽值;
根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;
将增强的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;
将优化后的多通道信号作为最终识别结果,并输出;
所述空间特征包括幅值平方相干系数、多通道相位差和多通道幅度差中的一种或多种,所述空间特征的数学表达式包括:
所述幅值平方相干系数的数学表达式为:
其中,和ICC(i,j,t,f)分别代表信号的自相关矩阵和信号的相关系数,MSC(t,f)代表幅值平方相干系数;
所述多通道相位差的数学表达式为:
所述多通道幅度差的数学表达式为:
其中所述幅值平方相干系数从时频点相关性的角度区分散射噪声和直达声,所述多通道相位差和多通道幅度差反映直达声的方向。
2.根据权利要求1所述的方法,其特征在于,所述计算多通道信号的掩蔽值包括:分别计算多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述掩蔽值计算多通道信号的波束形成系数包括:
分别对多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值求平均值;
根据多通道语音信号和多通道噪声信号的平均掩蔽值计算多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵;
根据所述多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵计算多通道信号的波束形成系数。
4.根据权利要求1所述的方法,其特征在于,所述编码解码网络为基于连接主义和注意力机制的编码解码网络。
5.一种端到端语音识别系统,包括:
采集单元:用于获取多通道信号,并将多通道信号的频谱特征和包括幅值平方相干系数、多通道相位差和多通道幅度差中的一种或多种的空间特征进行融合后输入掩蔽网络中;
所述幅值平方相干系数的数学表达式为:
其中,和ICC(i,j,t,f)分别代表信号的自相关矩阵和信号的相关系数,MSC(t,f)代表幅值平方相干系数;
所述多通道相位差的数学表达式为:
所述多通道幅度差的数学表达式为:
其中所述幅值平方相干系数从时频点相关性的角度区分散射噪声和直达声,所述多通道相位差和多通道幅度差反映直达声的方向;
处理单元:用于计算多通道信号的掩蔽值;根据所述掩蔽值计算多通道信号的波束形成系数,并根据所述波束形成系数对多通道语音信号进行增强;将增强的多通道信号输入到编码解码网络中进行声学建模和优化,并在优化过程中加入最大信噪比准则进行联合优化;
输出单元:用于将优化后的多通道信号最终识别结果,并输出。
6.根据权利要求5所述的系统,其特征在于,所述计算多通道信号的掩蔽值包括:分别计算多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值。
7.根据权利要求5或6 所述的系统,其特征在于,所述根据所述掩蔽值计算多通道信号的波束形成系数包括:
分别对多通道语音信号的掩蔽值和多通道噪声信号的掩蔽值求平均值;
根据多通道语音信号和多通道噪声信号的平均掩蔽值计算多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵;
根据所述多通道语音信号的功率谱矩阵和多通道噪声信号的功率谱矩阵计算多通道信号的波束形成系数。
8.根据权利要求5所述的系统,其特征在于,所述编码解码网络为基于连接主义和注意力机制的编码解码网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911415037.X/1.html,转载请声明来源钻瓜专利网。