[发明专利]语音识别的方法、装置、电子设备和介质在审
申请号: | 202210974444.X | 申请日: | 2022-08-15 |
公开(公告)号: | CN115346520A | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 陈金坤;侯俊峰;李婉瑜;张骏;马泽君 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G10L15/18 | 分类号: | G10L15/18;G10L15/183;G10L15/26 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 邓雪萌 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 电子设备 介质 | ||
1.一种语音识别方法,包括:
获取流式语音的声学表示和所述流式语音的已识别部分的语义表示;
获取所述流式语音的对话上下文;以及
基于所述声学表示、所述流式语音的所述已识别部分的所述语义表示和所述对话上下文,生成所述流式语音的识别结果。
2.根据权利要求1所述的方法,其中获取所述流式语音的对话上下文包括:
将所述声学表示和所述语义表示中的至少一项确定为查询向量;
确定与所述对话上下文的语义相关联的键值对;以及
基于所述查询向量与所述键值对中的键的语义相关性来确定所述对话上下文相对于所述流式语音的语义关联表示。
3.根据权利要求2所述的方法,其中基于所述声学表示、所述语义表示和所述对话上下文,生成所述流式语音的识别结果包括:
将所述语义关联表示与所述语义表示进行混合以获得混合后的语义表示;以及
基于所述声学表示和所述混合后的语义表示,生成所述流式语音的所述识别结果。
4.根据权利要求3所述的方法,其中基于所述声学表示和所述混合后的语义表示,生成所述流式语音的所述识别结果包括:
基于所述声学表示和所述混合后的语义表示,确定多个候选识别结果的相应概率;以及
将所述多个候选识别结果中的概率最大的候选识别结果确定为所述识别结果。
5.根据权利要求4所述的方法,其中所述识别结果和所述候选识别结果是文本,并且基于所述声学表示和所述混合后的语义表示,确定多个候选结果的相应概率包括:
基于所述声学表示、所述混合后的语义表示以及用于语音识别的字典,确定所述文本的概率表示;以及
对所述概率表示进行归一化以获取所述文本的相应概率。
6.根据权利要求2所述的方法,其中基于所述声学表示、所述语义表示和所述对话上下文,生成所述流式语音的识别结果包括:
将所述语义关联表示与所述声学表示进行混合以获得混合后的声学表示;以及
基于所述语义表示和所述混合后的声学表示,生成所述流式语音的所述识别结果。
7.根据权利要求6所述的方法,其中基于所述语义表示和所述混合后的声学表示,生成所述流式语音的所述识别结果包括:
基于所述语义表示和所述混合后的声学表示,确定多个候选识别结果的相应概率;以及
将所述多个候选识别结果中的概率最大的候选识别结果确定为所述识别结果。
8.根据权利要求6所述的方法,其中将所述语义关联表示与所述声学表示进行混合包括:
对所述声学表示进行降维以使得降维后的所述声学表示与所述语义关联表示维度相同;以及
将降维后的所述声学表示与所述语义关联表示进行混合。
9.根据权利要求1所述的方法,其中所述方法由经训练的语音识别模型执行,所述方法还包括:
利用第一样本数据来训练所述语音识别模型,其中所述第一样本数据包括流式语音及其对应的标注文本和对话上下文。
10.根据权利要求9所述的方法,还包括:
利用第二样本数据来训练所述语音识别模型,其中所述第二样本数据包括流式语音及其对应的标注文本。
11.根据权利要求9所述的方法,还包括:
替换所述第一样本数据中的一部分以使得所述第一样本数据包括错误的标注文本;以及
利用替换后的所述第一样本数据来训练所述语音识别模型。
12.根据权利要求11所述的方法,其中所述错误的标注文本至少包括以下一项:
将正确文本识别为其同音字;
没有识别出所述正确文本;以及
除了识别出所述正确文本之外,还识别出其他错误文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210974444.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种执行机构的冷却装置
- 下一篇:一种新能源汽车液冷板内部冲刷腐蚀实验装置