[发明专利]语音识别方法、装置、计算机设备及存储介质在审
申请号: | 202111536323.9 | 申请日: | 2021-12-15 |
公开(公告)号: | CN114333774A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 唐立亮 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/51;G06F40/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 李文静 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种语音识别方法,其特征在于,所述方法包括:
获取语言信息,所述语言信息包括多个字符及至少两个所述字符之间的连接关系;
获取语音数据中的多个音频帧的语义特征,所述语义特征包括所述音频帧分别属于多个所述字符的第一概率;
基于多个所述语义特征中区分度大于第一阈值的语义特征,从所述语言信息中提取与所述语音数据匹配的语义路径,所述区分度表示所述音频帧分别属于多个所述字符的所述第一概率之间的差异程度,所述语义路径由至少一个所述字符连接构成;
将所述语义路径确定为所述语音数据的语义信息。
2.根据权利要求1所述的方法,其特征在于,所述语言信息中的每个所述字符仅有一个前序字符,所述基于多个所述语义特征中区分度大于第一阈值的语义特征,从所述语言信息中提取与所述语音数据匹配的语义路径,包括:
遍历所述语音数据中的多个所述音频帧;
对于遍历到的所述语义特征的区分度大于所述第一阈值的所述音频帧,基于所述音频帧的语义特征,获取当前确定的尾字符的后继字符对应的匹配度,其中初次确定的尾字符为所述语言信息中的起始字符,所述后继字符对应的匹配度指示从所述起始字符到所述后继字符构成的路径与所述语音数据的匹配程度;
在所述后继字符对应的匹配度满足第一匹配条件的情况下,将所述尾字符删除,将所述后继字符确定为本次最新的尾字符;
在所述多个音频帧遍历完成后,确定从所述起始字符到最新确定的尾字符构成的语义路径。
3.根据权利要求2所述的方法,其特征在于,所述基于所述音频帧的语义特征,获取当前确定的尾字符的后继字符对应的匹配度,包括:
对于当前确定的尾字符中匹配度满足第二匹配条件的尾字符,基于所述音频帧的语义特征,获取所述尾字符的后继字符对应的匹配度。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第一匹配参数;
对于当前确定的每个尾字符,在所述尾字符对应的匹配度与所述第一匹配参数的乘积大于第二阈值的情况下,确定所述尾字符对应的匹配度满足所述第二匹配条件。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对当前确定的多个尾字符对应的匹配度进行卷积处理,得到第二匹配参数;
在所述后继字符对应的匹配度与所述第二匹配参数的乘积大于第三阈值的情况下,确定所述后继字符对应的匹配度满足所述第一匹配条件。
6.根据权利要求2所述的方法,其特征在于,所述基于所述音频帧的语义特征,获取当前确定的尾字符的后继字符对应的匹配度,包括:
从所述音频帧的语义特征中,确定所述音频帧属于所述后继字符的第一概率;
对所述第一概率及所述尾字符对应的匹配度进行加权融合,得到所述后继字符对应的匹配度。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取从所述起始字符到所述后继字符构成的路径对应的语言概率,所述语言概率指示所述路径的语言逻辑的合理程度;
所述对所述第一概率及所述尾字符对应的匹配度进行加权融合,得到所述后继字符对应的匹配度,包括:
对所述第一概率、所述语言概率及所述尾字符对应的匹配度进行加权融合,得到所述后继字符对应的匹配度。
8.根据权利要求2所述的方法,其特征在于,所述在所述后继字符对应的匹配度满足第一匹配条件的情况下,将所述尾字符删除,将所述后继字符确定为本次最新的尾字符之后,所述方法还包括:
将当前确定的多个尾字符中匹配度不大于匹配度阈值的尾字符删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111536323.9/1.html,转载请声明来源钻瓜专利网。