[发明专利]基于自动机的前缀树处理语音信号的方法、装置和设备在审
申请号: | 202210720359.0 | 申请日: | 2022-06-23 |
公开(公告)号: | CN115312059A | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 王伟戌;王强强 | 申请(专利权)人: | 北京云思智学科技有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/02;G10L15/06 |
代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 李博 |
地址: | 101100 北京市通州*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自动机 前缀 处理 语音 信号 方法 装置 设备 | ||
1.一种基于自动机的前缀树处理语音信号的方法,其特征在于,包括:
实时获取待识别的语音信号;
对所述语音信号进行识别,得到多个候选字符的预测概率;
通过自动机的前缀树对多个所述候选字符的预测概率处理,得到多个所述候选字符的目标概率;
根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据。
2.根据权利要求1所述的基于自动机的前缀树处理语音信号的方法,其特征在于,对所述语音信号进行识别,得到多个所述候选字符的预测概率包括:
通过端到端模型,从所述语音信号中的各帧语音数据提取音素特征序列;
根据所述音素特征序列,确定多个所述候选字符的预测概率。
3.根据权利要求1所述的基于自动机的前缀树处理语音信号的方法,其特征在于,通过自动机的前缀树对多个所述候选字符的预测概率处理,得到多个所述候选字符的目标概率包括:
基于各个所述候选字符,遍历所述自动机的前缀树中每个节点,获取各个所述候选字符的权重;
根据各个所述候选字符的预测概率和各个所述候选字符的权重,确定各个所述候选字符的目标概率。
4.根据权利要求3所述的基于自动机的前缀树处理语音信号的方法,其特征在于,根据各个所述候选字符的预测概率和各个所述候选字符的权重,确定各个所述候选字符的目标概率包括:
基于各个所述候选字符的权重,对各个所述候选字符的预测概率进行加权处理,得到各个所述候选字符的目标概率。
5.根据权利要求1所述的基于自动机的前缀树处理语音信号的方法,其特征在于,根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据包括:
基于各个所述候选字符的目标概率与预设阈值进行比较;
当所述候选字符的目标概率大于等于所述预设阈值时,确定该候选字符为目标字符;
根据多个所述目标字符,确定所述待识别的语音信号对应的文本数据。
6.根据权利要求1所述的基于自动机的前缀树处理语音信号的方法,其特征在于,该方法还包括:
获取常规语料和特定语料;
基于所述常规语料和所述特定语料,构建所述自动机的前缀树中每个节点的字符和转移状态,其中,每个节点的字符设置有与其对应的权重。
7.根据权利要求6所述的基于自动机的前缀树处理语音信号的方法,其特征在于,该方法还包括:
实时获取新增语料;
基于所述新增语料中的新增字符,遍历所述自动机的前缀树中每个节点的字符和转移状态,以添加新节点和新转移状态。
8.一种基于自动机的前缀树处理语音信号的装置,其特征在于,包括:
第一获取模块,用于实时获取待识别的语音信号;
识别模块,用于对所述语音信号进行识别,得到多个候选字符的预测概率;
处理模块,用于通过自动机的前缀树对多个所述候选字符的预测概率进行处理,得到多个所述候选字符的目标概率;
文本数据确定模块,用于根据多个所述候选字符的目标概率,确定所述待识别的语音信号对应的文本数据。
9.一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,其特征在于,当所述计算机程序被所述处理器执行时,所述处理器执行如权利要求1-7中任一项所述的基于自动机的前缀树处理语音信号的方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令当被处理器执行时,实现权利要求1-7中任一项所述的基于自动机的前缀树处理语音信号的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云思智学科技有限公司,未经北京云思智学科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210720359.0/1.html,转载请声明来源钻瓜专利网。