[发明专利]一种基于深度学习的语音识别方法有效

申请号：	202310914137.7	申请日：	2023-07-25
公开（公告）号：	CN116631410B	公开（公告）日：	2023-10-24
发明（设计）人：	陈志丰;张灵芝	申请（专利权）人：	陈志丰
主分类号：	G10L17/18	分类号：	G10L17/18;G10L15/16;G10L21/0216
代理公司：	北京博识智信专利代理事务所(普通合伙) 16067	代理人：	徐佳慧
地址：	100015 北京市朝阳区酒仙桥***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习语音识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度学习的语音识别方法，该方法包括音源采集、音源预处理、抗噪增强、口语理解、说话人识别和语音识别，本发明属于语音识别技术领域，具体是指一种基于深度学习的语音识别方法。本方案采用时频去噪网络结合损失函数训练预测模型的方法进行对音源数据的抗噪增强，提高了音源数据的质量，采用基于集成学习的口语识别架构进行口语理解，提高了语音识别的可用性和精确性，采用基于决策函数的说话人身份识别和分类算法，分析和处理音源数据进行说话人识别，提高了语音识别的信息获取密度和优化了语音识别的信息获取结构，进而优化了语音识别的可靠性、可延展性和适用性。

技术领域

本发明涉及语音识别技术领域，具体是指一种基于深度学习的语音识别方法。

背景技术

语音识别技术是指将人类语音转化为计算机可识别的文本或命令的技术，随着人工智能和机器学习技术的快速发展，语音识别技术在智能助理、智能音箱、语音搜索和语音翻译等领域得到越来越广泛的应用。

但是在已有的语音识别过程中，存在着音源噪声干扰较多，音源质量参差不齐，加大了语音特征提取的难度，对语音识别的准确率造成了负面影响的技术问题；在已有的语音识别方法中，存在着难以识别并理解言语中的口语意图，降低了语音识别的可用性和精确性的技术问题；在已有的语音识别方法中，存在着缺少一种能够识别、匹配并分类说话人的方法，影响了语音识别的可靠性和可延展性，降低了语音识别的信息获取密度的技术问题。

发明内容

针对上述情况，为克服现有技术的缺陷，本发明提供了一种基于深度学习的语音识别方法，针对在已有的语音识别过程中，存在着音源噪声干扰较多，音源质量参差不齐，加大了语音特征提取的难度，对语音识别的准确率造成了负面影响的技术问题，本方案创造性地采用时频去噪网络结合损失函数训练预测模型的方法进行对音源数据的抗噪增强，提高了音源数据的质量，进而降低了后续语音识别过程中特征提取等音源处理步骤的难度，提升了语音识别的总体准确率；针对在已有的语音识别方法中，存在着难以识别并理解言语中的口语意图，降低了语音识别的可用性和精确性的技术问题，本方案创造性地采用基于集成学习的口语识别架构进行口语理解，从音源数据中识别出口语言语的意图，提高了语音识别的可用性和精确性；针对在已有的语音识别方法中，存在着缺少一种能够识别、匹配并分类说话人的方法，影响了语音识别的可靠性和可延展性，降低了语音识别的信息获取密度的技术问题，本方案创造性地采用基于决策函数的说话人身份识别和分类算法，分析和处理音源数据进行说话人识别，提高了语音识别的信息获取密度和优化了语音识别的信息获取结构，进而优化了语音识别的可靠性、可延展性和适用性。

本发明采取的技术方案如下：本发明提供的一种基于深度学习的语音识别方法，该方法包括以下步骤：

步骤S1：音源采集；

步骤S2：音源预处理；

步骤S3：抗噪增强；

步骤S4：口语理解；

步骤S5：说话人识别；

步骤S6：语音识别。

进一步地，在步骤S1中，所述音源采集具体指从音频数据中采集得到音频原始数据。

进一步地，在步骤S2中，所述音源预处理包括采样率调整、音量归一化和声道归一化，得到单声道音源数据S_MA。

进一步地，在步骤S3中，所述抗噪增强，包括以下步骤：

步骤S31：采用时频去噪网络对所述单声道音源数据S_MA进行抗噪处理，包括以下步骤：

步骤S311：通过编码器encoder，计算得到单声道音源编码数据E_SMA，计算公式为：