[发明专利]一种语音识别方法在审
申请号: | 202110685580.2 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113327590A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 罗飞 | 申请(专利权)人: | 中标软件有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/16 |
代理公司: | 天津诺德知识产权代理事务所(特殊普通合伙) 12213 | 代理人: | 栾志超 |
地址: | 200030 上海市徐汇*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 | ||
一种语音识别方法,所述方法包括步骤:获取原始语音;预处理所述原始语音;获取残差卷积神经网络和双向长短时记忆神经网络;根据所述残差卷积神经网络和所述双向长短时记忆神经网络构建语音识别模型;使用CTC损失函数对所述语音识别模型进行参数优化;检测所述语音识别模型的有效性。本专利提供了一种语音识别方法,从空间和时间上充分提取语音数据的特征信息,同时该模型结构也采用了端到端的模型结构,能够进一步简化语音识别的流程,通过上述方法不仅提高了语音识别的准确率,而且也提高了语音识别的效率。
技术领域
本发明属于语音识别技术领域,具体涉及一种语音识别方法。
背景技术
随着计算能力的提升和大数据语料的不断积累,语音识别技术飞速发展,准确率大幅提高,应用的场景也越来越广。语音识别作为连接人类与智能硬件设备的桥梁变得越来越受关注。在实际的应用场景中,语音识别技术通常与自然语言处理、语音合成等相关技术结合使用,创造出切实可行的语音接口,搭建一个可以实现实际功能的人机语音交互平台,这些技术在很大程度上提高了用户在可穿戴设备、智能汽车、智能家居和众多移动终端等智能设备的体验,同时使得人类和计算机真正在交互层面实现自然融合。
随着智能移动终端的普及应用,语料和文本的获取途径变得多种多样,正是因为这些丰富的资源,大规模的语音类型的模型才能够得以训练。而且近年来,由于机器学习不断发展,新型的语音识别技术借助机器学习算法的突破能够大幅地降低语音识别的错误率。
语音识别技术是自然语言处理中最为基础的研究领域,它直接影响着机器是否能听懂人类的语言。传统隐马尔科夫模型(Hidden Markov Model,HMM)的混合系统虽然在录制语音识别中已经接近人类水准,但是在实际应用中受现实世界噪声干扰严重,且存在需要专门的词典来实现词到音素的映射、需要对用HMM结构与音素逐帧对齐以及需要满足条件独立性建设等缺点。
发明内容
为解决上述问题,本发明提供了一种语音识别方法,所述方法包括步骤:
获取原始语音;
预处理所述原始语音;
获取残差卷积神经网络和双向长短时记忆神经网络;
根据所述残差卷积神经网络和所述双向长短时记忆神经网络构建语音识别模型;
使用CTC损失函数对所述语音识别模型进行参数优化;
检测所述语音识别模型的有效性。
优选地,所述预处理所述原始语音包括步骤:
对所述原始语音进行预加重处理;
对所述原始语音进行分帧处理;
对所述原始语音进行加窗处理;
对所述原始语音进行端点检测处理。
优选地,所述预处理所述预加重处理中传递函数的表达式为:
H(z)=1-μz-1;
其中,H(z)表示所述传递函数,μ表示预加重系数,取值范围为0.9μ1.0,z表示自变量。
优选地,所述预处理所述语音识别模型包括:7层残差卷积神经网络和7层双向长短时记忆神经网络。
优选地,所述预处理所述CTC损失函数的表达式为:
L(S)=-lnП(x,z)∈Sp(z|x)=-∑(x,z)∈Slnp(z|x);
其中,L(S)表示CTC损失函数,p(z|x)代表给定输入x输出序列z的概率,S表示训练集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中标软件有限公司,未经中标软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110685580.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带翻折标识的柔性LED灯带
- 下一篇:一种基于手机的车载倒车影像系统