[发明专利]语音识别纠错方法和装置在审

申请号：	202310526330.3	申请日：	2023-05-11
公开（公告）号：	CN116434752A	公开（公告）日：	2023-07-14
发明（设计）人：	邓丽萍;范璐;何晓冬	申请（专利权）人：	京东科技信息技术有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L15/28;G10L15/06;G10L15/02
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	王志远;张一军
地址：	100176 北京市大兴区北京经***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别纠错方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种语音识别纠错方法和装置，涉及人工智能技术领域。该方法的一具体实施方式包括：获取音频数据和语音识别文本；将音频数据输入音频特征抽取模型，得到音频特征向量；将语音识别文本输入文本特征抽取模型，得到文本特征向量；将音频特征向量和文本特征向量输入关联注意力模块；在关联注意力模块，基于音频特征向量和文本特征向量执行关联注意力计算，输出融合音频特征向量和文本特征向量的双模态表征向量；将双模态表征向量输入纠错解码器，得到语音识别文本的纠错结果。该实施方式通过在纠错模型中引入融合语音和文本的双模态特征来提高纠错准确率。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音识别纠错方法和装置。

背景技术

语音识别是人机对话中的关键技术，广泛应用于生活中的常见服务，如手机端的语音转文字、视频网站的字幕自动生成等。然而，目前的语音识别模型并不完美，总是会出现一些识别错误，因此，需要使用纠错模型来纠正语音识别文本中的错误。目前，大部分纠错模型通过比对语音识别文本和人工标注的正确文本来学习纠错信息。然而，许多识别错误单从文本层面并不能确定正确的识别结果，这导致现有纠错模型的纠错准确率不高。

发明内容

有鉴于此，本发明实施例提供一种语音识别纠错方法和装置，通过在纠错模型中引入融合语音和文本的双模态特征来提高纠错准确率。

为实现上述目的，根据本发明的一个方面，提供了一种语音识别纠错方法。

本发明实施例的语音识别纠错方法包括：获取音频数据和待处理的、所述音频数据的语音识别文本；将所述音频数据输入预先训练的音频特征抽取模型，得到所述音频数据的音频特征向量；将所述语音识别文本输入预先训练的文本特征抽取模型，得到所述语音识别文本的文本特征向量；将所述音频特征向量和所述文本特征向量输入预先训练的关联注意力模块；在所述关联注意力模块，基于所述音频特征向量和所述文本特征向量执行关联注意力计算，输出融合所述音频特征向量和所述文本特征向量的双模态表征向量；将所述双模态表征向量输入预先训练的纠错解码器，得到所述语音识别文本的纠错结果。

可选地，所述基于所述音频特征向量和所述文本特征向量执行关联注意力计算，输出融合所述音频特征向量和所述文本特征向量的双模态表征向量，包括：基于所述文本特征向量形成多个注意力头的查询向量，基于所述音频特征向量形成所述多个注意力头的键向量和值向量；根据所述查询向量、键向量和值向量计算每一注意力头的单头注意力输出向量，将每一注意力头的单头注意力输出向量拼接后形成多头注意力输出向量；将所述多头注意力输出向量与所述文本特征向量拼接为所述双模态表征向量。

可选地，所述纠错解码器包括依次连接并且结构相同的多个解码层，每一解码层包括依次连接的自注意力子层、关联注意力子层和前馈网络子层；以及，所述将所述双模态表征向量输入预先训练的纠错解码器，包括：将所述双模态表征向量输入每一解码层的关联注意力子层。

可选地，所述方法进一步包括：在所述纠错解码器的任一解码层，基于该解码层的自注意力子层计算该解码层的输入向量的自注意力向量，将所述自注意力向量执行归一化之后与所述输入向量结合，获得第一中间向量向该解码层的关联注意力子层传递；在该关联注意力子层，基于第一中间向量形成多个注意力头的查询向量，基于所述双模态表征向量形成该多个注意力头的键向量和值向量，根据该查询向量、键向量和值向量计算融合第一中间向量和所述双模态表征向量的多头注意力向量；将所述多头注意力向量执行归一化之后与第一中间向量结合，获得第二中间向量后向该解码层的前馈网络子层传递；基于该前馈网络子层计算第二中间向量的映射向量，将所述映射向量执行归一化之后与第二中间向量结合，获得该解码层的输出向量。

可选地，所述纠错解码器进一步包括连接在最后端解码层的线性层、归一化层和输出层；以及，所述纠错解码器的最前端解码层在任一时间步的输入向量是当前已生成语素的嵌入向量，所述输出层在任一时间步的输出结果是当前已生成语素的下一语素，所述输出层在各时间步的输出结果组成所述纠错结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于京东科技信息技术有限公司，未经京东科技信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310526330.3/2.html，转载请声明来源钻瓜专利网。

上一篇：考虑频率动态安全约束的输配电协同优化调度方法和系统
下一篇：一种具有垫纸功能的多工位书本码放设备

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音识别纠错方法和装置在审

专利文献下载