[发明专利]一种基于拼音的双阶段解耦合中文语音识别模型在审
申请号: | 202210410441.3 | 申请日: | 2022-04-19 |
公开(公告)号: | CN114743544A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 陈力军;刘佳;林华健;陈星宇;鄢伟 | 申请(专利权)人: | 南京大学;江苏图客机器人有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L25/03 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210008 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 拼音 阶段 耦合 中文 语音 识别 模型 | ||
本发明公开了一种基于拼音的双阶段解耦合中文语音识别模型,将语音识别过程分解为从语音到拼音,从拼音到汉字两个步骤,独立构建和训练从语音到拼音的声学模型和从拼音到汉字的语言模型:构建基于混合下采样和多路径交叉卷积模块的全卷积声学模型,进行从音频Mel谱特征到拼音的识别;构建基于同音字建模方案的Transformer语言模型,进行从拼音到汉字的转录。声学模型中,提出并采用混合下采样和多路径交叉卷积结构,大幅减少参数量,降低复杂度,节省训练时间和计算资源开销,提高了模型的泛化性能。语言模型中,采用同音字建模,将输出特征维度从4000以上减至55,减少参数量,降低模型学习难度,提高转录准确率。
技术领域
本发明涉及一种中文语音识别模型,特别是一种基于拼音的双阶段解耦合中文语音识别模型。
背景技术
语音识别技术是一种将人的语音转换为文本序列的技术。作为一种便捷的人机交互方式,语音识别技术已在各种交互式智能设备中得到了相当广泛的应用,包括智能音箱、车载系统和问答机器人等。
传统的语音识别架构中都包含声学模型和语言模型,声学模型负责把语音输入转换成声学表示的输出,语言模型负责从候选的字符序列中找出概率最大的字符串序列。端到端模型同时训练声学模型和语言模型,虽然简化了训练过程,但由于解码器替代了传统架构中的语言模型,训练时又只能用成对的音频文本数据,因此大大增加了对语音标注数据的需求。另外,端到端模型由于整合了声学模型和语言模型,模型体积较大,对计算和内存提出了高要求。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于拼音的双阶段解耦合中文语音识别模型。
为了解决上述技术问题,本发明公开了一种基于拼音的双阶段解耦合中文语音识别模型,包括如下步骤:
步骤1,从中文语音数据集获取音频数据并进行预处理,得到语音数据训练集、验证集和测试集;构建基于拼音的双阶段解耦合中文语音识别模型,包括声学模型和语言模型;
步骤2,对所得语音数据训练集的Mel谱特征做动态数据增强,包括时间掩蔽和频率掩蔽;
步骤3,将动态数据增强后的Mel谱特征送入声学模型,进行声学模型训练,得到联结时序分类(Connectionist Temporal Classification,CTC)损失,优化声学模型参数;重复步骤2和步骤3所述的动态数据增强和声学模型训练过程,直到声学模型收敛;
步骤4,进行声学模型性能评估;
步骤5,从中文文本数据集获取文本数据并进行预处理;
步骤6,根据步骤5中预处理后的文本数据建立拼音词典、汉字词典和同音字词典,得到包括中文文本的文本数据训练集;
步骤7,将所得文本数据训练集中中文文本对应的拼音序列以及同音字序列送入语言模型,进行语言模型训练,得到交叉熵损失,优化语言模型参数;重复步骤7所述的语言模型训练过程,直到语言模型收敛;
步骤8,进行语言模型性能评估和基于拼音的双阶段解耦合中文语音识别模型的联合评估。
本发明步骤1中所述数据预处理包括:
将所有音频数据以统一的采样率进行重采样;对音频数据进行预加重、分帧和加窗得到有重叠的分帧信号;对分帧信号进行短时傅里叶变换得到短时幅度谱;通过Mel滤波器组得到Mel谱特征数据;将所得Mel谱特征数据划分为不相交的训练集、验证集和测试集。
本发明步骤2中对所得语音数据训练集的Mel谱特征做动态数据增强过程中,对时间掩蔽和频率掩蔽的掩蔽比例为随机数。
本发明步骤3中,所述声学模型由混合下采样模块、多路径交叉卷积模块和多层前馈神经网络组成;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学;江苏图客机器人有限公司,未经南京大学;江苏图客机器人有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210410441.3/2.html,转载请声明来源钻瓜专利网。