[发明专利]一种语音识别方法有效
申请号: | 202211250643.2 | 申请日: | 2022-10-13 |
公开(公告)号: | CN115331658B | 公开(公告)日: | 2023-01-24 |
发明(设计)人: | 姜晓琳;刘炳展;徐萌;王秀翠;杜玉霞;朱佳;王亮亮 | 申请(专利权)人: | 山东商业职业技术学院;高寻真源(山东)教育科技有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/06;G10L15/16;G10L15/18 |
代理公司: | 北京中索知识产权代理有限公司 11640 | 代理人: | 商金婷 |
地址: | 250102 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 | ||
1.一种语音识别方法,其特征在于:所述方法包括:
(S1)通过语音识别设备设置识别主题语言;
其中语音识别设备采用CN3704芯片进行语音识别信息控制,语音识别设备包括识别语言设置单元、语音识别处理单元、语音按钮、麦克风和显示器;
(S2)语音识别设备接收语音信息,并将语音信息存储在语音识别设备中;
其中语音识别设备通过语音按钮开启语音识别设备,采用麦克风接收语音信息,并将语音信号转换为电信号存储在语音识别设备的语音识别处理单元中;
(S3)采用DTW算法提取语音信息语义模板,与语音识别词典的参考模板进行匹配;
其中通过DTW算法按语音帧进行标记语音信息所有片段,得到语音信息的语义模板表示为,表示语音帧的标记序数,表示语义模板中第帧的特征矢量值;采用欧氏距离的方法计算语义模板与参考模板之间的最优距离,将语音信息的语义模板与语音识别词典中的所有参考模板一一匹配,则计算取最小匹配失真度为:
(8)
式(8)中,表示参考模板对应的最小匹配失真度;表示语音信息语义模板与参考模板之间的距离;若小于语音识别阈值,则模板匹配成功,输出参考模板的语义为语音信息识别结果;
(S4)模板匹配成功,语音识别设备的显示器显示语音识别结果;
其中,若
在步骤(S3)中,语音识别词典的训练方法,包括以下步骤:
步骤1:假设将输入的语音信息分割为个音频分量的语音片段,通过计算每个语音片段的音频分量,获取音频向量进行计数,则每个语音片段的信息熵为:
(1)
式(1)中,表示语音片段的信息熵,下标表示语音片段序数,表示语音片段的带宽,表示语音片段特征点出现频率,表示语音片段的数据;当语音片段特征点出现频率为3MHz,则该语音片段为高频分量;当语音片段特征点出现频率为3kHz,则该语音片段为低频分量;
步骤2:使用OMP算法对每个高频分量的语音片段进行稀疏编码,假设稀疏系数,利用max-L1融合规则对所有高频分量的语音片段进行融合得到:
(2)
式(2)中,表示max-L1融合规则得到的高频分量的语音片段集,表示每个高频分量的语音片段的稀疏系数,表示OMP算法函数值;
步骤3:采用基于L2-范数的加权平均方法对低频分量进行融合,L2-范数最小化公式如下:
(3)
式(3)中,表示L2-范数最小化,表示L2-范数值,表示具有满秩的约束矩阵,表示常参数;为了减少计算量,在L2-范数中引入了拉格朗日乘子:
(4)
式(4)中,表示拉格朗日拉格朗日乘子,表示引入的拉格朗日参数,之后根据公式(4)得到融合后的低频分量的语音片段集:
(5)
式(5)中,表示基于L2-范数的加权平均方法得到的低频分量的语音片段集;
步骤4:将融合后的高频分量和低频分量的语音片段集进一步融合,形成最终的融合语音信息:
(6)
式(6)中,表示输出的融合语音信息;将融合语音信息进行深度学习,构建语音识别词典。
2.根据权利要求1所述的一种语音识别方法,其特征在于:步骤(S3)中采用DTW算法提取语音信息语义模板,步骤包括:
步骤1:对输入的语音信息进行识别确定主题,并通过动态时间规整的重心平均DTW算法得到语音信息的语义模板,按语音帧进行标记,得到语音信息的语义模板表示为,表示语音帧的标记序数,表示语义模板中第帧的特征矢量值;
步骤2:从语音识别词典中提取统一主题下的参考模板为,表示参考模板第帧的特征矢量值;
步骤3:设动态时间规整函数为,采用欧氏距离的方法计算语音信息语义模板与参考模板之间的最优距离:
(7)
式(7)中,表示语音信息语义模板与参考模板之间的最优距离,表示参考模板中的矢量值;表示第帧语音信息的语义模板特征矢量与第帧参考模板特征矢量之间的距离,表示时间规整函数;
步骤4:将语音信息的语义模板与语音识别词典中的所有参考模板一一匹配,则计算取最小匹配失真度为:
(8)
式(8)中,表示参考模板对应的最小匹配失真度;表示语音信息语义模板与参考模板之间的距离;若小于语音识别阈值,则模板匹配成功,输出参考模板的语义为语音信息识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东商业职业技术学院;高寻真源(山东)教育科技有限公司,未经山东商业职业技术学院;高寻真源(山东)教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211250643.2/1.html,转载请声明来源钻瓜专利网。