[发明专利]语音识别方法、装置、计算机设备及存储介质在审
申请号: | 202111536323.9 | 申请日: | 2021-12-15 |
公开(公告)号: | CN114333774A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 唐立亮 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/51;G06F40/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 李文静 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 计算机 设备 存储 介质 | ||
本申请实施例公开了一种语音识别方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:获取语言信息,获取语音数据中的多个音频帧的语义特征,语义特征包括音频帧分别属于多个字符的第一概率;基于多个语义特征中区分度大于第一阈值的语义特征,从语言信息中提取与语音数据匹配的语义路径,将语义路径确定为语音数据的语义信息。本申请实施例提供的方法,从多个语义特征中筛选出区分度满足要求的语义特征,结合语言信息中各个字符之间的连接关系,从语言信息中提取出与该语音数据匹配的语义路径,作为识别到的语义信息,无需再对不满足区分度条件的语义特征进行处理,从而提升了语音识别效率,也保证了识别结果的准确性。
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种语音识别方法、装置、计算机设备及存储介质。
背景技术
语音识别是通过识别和理解将语音数据转换成对应的语义信息,近年来,语音识别技术的应用越来越广泛,常应用于语音控制设备、智能对话等多种场景下。但是相关技术中的语音识别方式,无法兼顾语音识别的效率和准确性。
发明内容
本申请实施例提供了一种语音识别方法、装置、计算机设备及存储介质,能够提升语音识别效率和准确性。所述技术方案如下:
一方面,提供了一种语音识别方法,所述方法包括:
获取语言信息,所述语言信息包括多个字符及至少两个所述字符之间的连接关系;
获取语音数据中的多个音频帧的语义特征,所述语义特征包括所述音频帧分别属于多个所述字符的第一概率;
基于多个所述语义特征中区分度大于第一阈值的语义特征,从所述语言信息中提取与所述语音数据匹配的语义路径,所述区分度表示所述音频帧分别属于多个所述字符的所述第一概率之间的差异程度,所述语义路径由至少一个所述字符连接构成;
将所述语义路径确定为所述语音数据的语义信息。
另一方面,提供了一种语音识别装置,所述装置包括:
获取模块,用于获取语言信息,所述语言信息包括多个字符及至少两个所述字符之间的连接关系;
所述获取模块,还用于获取语音数据中的多个音频帧的语义特征,所述语义特征包括所述音频帧分别属于多个所述字符的第一概率;
提取模块,用于基于多个所述语义特征中区分度大于第一阈值的语义特征,从所述语言信息中提取与所述语音数据匹配的语义路径,所述区分度表示所述音频帧分别属于多个所述字符的所述第一概率之间的差异程度,所述语义路径由至少一个所述字符连接构成;
确定模块,用于将所述语义路径确定为所述语音数据的语义信息。
在一种可能实现方式中,所述语言信息中的每个所述字符仅有一个前序字符,所述提取模块,包括:
遍历单元,用于遍历所述语音数据中的多个所述音频帧;
获取单元,用于对于遍历到的所述语义特征的区分度大于所述第一阈值的所述音频帧,基于所述音频帧的语义特征,获取当前确定的尾字符的后继字符对应的匹配度,其中初次确定的尾字符为所述语言信息中的起始字符,所述后继字符对应的匹配度指示从所述起始字符到所述后继字符构成的路径与所述语音数据的匹配程度;
确定单元,用于在所述后继字符对应的匹配度满足第一匹配条件的情况下,将所述尾字符删除,将所述后继字符确定为本次最新的尾字符;
所述确定单元,还用于在所述多个音频帧遍历完成后,确定从所述起始字符到最新确定的尾字符构成的语义路径。
在另一种可能实现方式中,所述获取单元,用于对于当前确定的尾字符中匹配度满足第二匹配条件的尾字符,基于所述音频帧的语义特征,获取所述尾字符的后继字符对应的匹配度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111536323.9/2.html,转载请声明来源钻瓜专利网。