[发明专利]一种方言语音识别方法和装置在审
申请号: | 202210588274.1 | 申请日: | 2022-05-27 |
公开(公告)号: | CN115019771A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 张海峰;王碧琳;温海星 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王天尧;陶海萍 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 方言 语音 识别 方法 装置 | ||
1.一种方言语音识别方法,其特征在于,包括:
对采集的初始方言语音进行预处理,确定规范方言语音;
提取规范方言语音的语音特征,结合方言的音素信息构成语音发音底层特征;
对语音发音底层特征提取局部特征,抽取每一帧语音与其他帧的关系,将音素映射至设定维度,确定方言识别结果。
2.如权利要求1所述的方法,其特征在于,对采集的初始方言语音进行预处理,确定规范方言语音,包括:
采集初始方言语音,消除无用语音的干扰,将初始方言语音从模拟信号转化为数字信号,进行预加重、分帧和加窗操作,确定规范方言语音。
3.如权利要求2所述的方法,其特征在于,进行预加重操作,包括:
对语音的高频部分进行加重,去除口唇辐射影响,增加语音的高分辨率。
4.如权利要求2所述的方法,其特征在于,进行分帧操作,包括:
采用交叠分段的方法,以使语音的帧与帧之间平滑过渡,保持连续性。
5.如权利要求2所述的方法,其特征在于,进行加窗操作,包括:
采样汉明窗函数对对抽样设定范围内的语音波形强化而弱化波形的其余部分,把每一帧里面对的元素变成窗序列对应元素的乘积。
6.如权利要求1所述的方法,其特征在于,提取规范方言语音的语音特征,结合方言的音素信息构成语音发音底层特征,包括:
利用残差网络提取规范方言语音的帧内的语音特征,利用双向长短时记忆网络提取规范方言语音的帧间的语音特征;
利用注意力机制提取不同方言本身具有的音素信息;
根据帧内的语音特征、帧内的语音特征和音素信息,构成语音发音底层特征。
7.如权利要求1所述的方法,其特征在于,对语音发音底层特征提取局部特征,抽取每一帧语音与其他帧的关系,将音素映射至设定维度,确定方言识别结果,包括:
将语音发音底层特征作为输入,采用残差网络提取输入的语音发音底层特征的语音抽象的局部特征;
利用注意力机制抽取每一帧语音与其他帧的关系;
利用全连接层将音素映射至设定维度,通过CTC损失函数,根据语音抽象的局部特征、每一帧语音与其他帧的关系以及映射至设定维度的音素计算预测音素与实际音素的差异,将差异的值小于设定阈值的预测音素对应的音素串确定为方言识别结果。
8.一种方言语音识别装置,其特征在于,包括:
预处理模块,用于对采集的初始方言语音进行预处理,确定规范方言语音;
特征提取模块,用于提取规范方言语音的语音特征,结合方言的音素信息构成语音发音底层特征;
语音识别模块,用于对语音发音底层特征提取局部特征,抽取每一帧语音与其他帧的关系,将音素映射至设定维度,确定方言识别结果。
9.如权利要求8所述的装置,其特征在于,预处理模块,具体用于:
采集初始方言语音,消除无用语音的干扰,将初始方言语音从模拟信号转化为数字信号,进行预加重、分帧和加窗操作,确定规范方言语音。
10.如权利要求9所述的装置,其特征在于,预处理模块,还用于:
对语音的高频部分进行加重,去除口唇辐射影响,增加语音的高分辨率。
11.如权利要求9所述的装置,其特征在于,预处理模块,还用于:
采用交叠分段的方法,以使语音的帧与帧之间平滑过渡,保持连续性。
12.如权利要求9所述的装置,其特征在于,预处理模块,还用于:
采样汉明窗函数对对抽样设定范围内的语音波形强化而弱化波形的其余部分,把每一帧里面对的元素变成窗序列对应元素的乘积。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210588274.1/1.html,转载请声明来源钻瓜专利网。