[发明专利]音频识别方法、装置、设备及存储介质在审
| 申请号: | 202211056646.2 | 申请日: | 2022-08-30 |
| 公开(公告)号: | CN115641835A | 公开(公告)日: | 2023-01-24 |
| 发明(设计)人: | 俞帆;张仕良 | 申请(专利权)人: | 阿里巴巴达摩院(杭州)科技有限公司 |
| 主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/16;G10L15/26 |
| 代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 张子青 |
| 地址: | 310023 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 音频 识别 方法 装置 设备 存储 介质 | ||
本公开涉及一种音频识别方法、装置、设备及存储介质。本公开通过获取多路原始音频信号,并根据每帧原始音频信号在时间维度上的上下文信息、时间相同的多帧原始音频信号之间的第一关联性、以及时间相同的多帧原始音频信号各自的上下文信息分别与时间相同的每帧原始音频信号的第二关联性对该多路原始音频信号进行处理得到多路目标音频信号,从而可以同时在时间维度和通道维度上计算该多路原始音频信号之间的关联性。由于充分利用了多路原始音频信号在时间维度和通道维度上的关联性,不仅可以获取到更加细粒度的通道之间的关联性,同时还考虑到了每帧原始音频信号的上下文信息,因此在多个说话人同时说话时,提高了对多路原始音频信号的识别精度。
技术领域
本公开涉及信息技术领域,尤其涉及一种音频识别方法、装置、设备及存储介质。
背景技术
目前的自动语音识别(Automatic Speech Recognition,ASR)的应用较为广泛,例如,在会议场景中,通过ASR可以将说话人的音频转换为文本。
但是,当多个说话人同时说话时,就会导致ASR的识别结果不够准确。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种音频识别方法、装置、设备及存储介质,以提高对多路原始音频信号的识别精度。
第一方面,本公开实施例提供一种音频识别方法,包括:
获取多路原始音频信号,每路原始音频信号包括多帧原始音频信号;
将所述多路原始音频信号作为第一注意力机制的输入,所述第一注意力机制用于根据每路原始音频信号中的每帧原始音频信号在时间维度上的上下文信息、所述多路原始音频信号中时间相同的多帧原始音频信号之间的第一关联性、以及所述时间相同的多帧原始音频信号各自的上下文信息分别与所述时间相同的多帧原始音频信号中每帧原始音频信号的第二关联性,输出多路目标音频信号;
将所述多路目标音频信号进行融合得到单通道融合结果;
根据所述多路目标音频信号、所述单通道融合结果和当前已从所述多路原始音频信号中识别出的第一文本信息,预测所述第一文本信息后续的第二文本信息。
第二方面,本公开实施例提供一种音频识别模型,所述音频识别模型包括编码器、卷积模块和解码器;
所述编码器包括第一注意力机制,所述第一注意力机制的输入是多路原始音频信号,每路原始音频信号包括多帧原始音频信号,所述第一注意力机制用于根据每路原始音频信号中的每帧原始音频信号在时间维度上的上下文信息、所述多路原始音频信号中时间相同的多帧原始音频信号之间的第一关联性、以及所述时间相同的多帧原始音频信号各自的上下文信息分别与所述时间相同的多帧原始音频信号中每帧原始音频信号的第二关联性,输出多路目标音频信号;
所述卷积模块用于将所述多路目标音频信号进行融合得到单通道融合结果;
所述解码器用于根据所述多路目标音频信号、所述单通道融合结果和当前已从所述多路原始音频信号中识别出的第一文本信息,预测所述第一文本信息后续的第二文本信息。
第三方面,本公开实施例提供一种音频识别装置,包括:
获取模块,用于获取多路原始音频信号,每路原始音频信号包括多帧原始音频信号;
输入模块,用于将所述多路原始音频信号作为第一注意力机制的输入,所述第一注意力机制用于根据每路原始音频信号中的每帧原始音频信号在时间维度上的上下文信息、所述多路原始音频信号中时间相同的多帧原始音频信号之间的第一关联性、以及所述时间相同的多帧原始音频信号各自的上下文信息分别与所述时间相同的多帧原始音频信号中每帧原始音频信号的第二关联性,输出多路目标音频信号;
融合模块,用于将所述多路目标音频信号进行融合得到单通道融合结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴达摩院(杭州)科技有限公司,未经阿里巴巴达摩院(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211056646.2/2.html,转载请声明来源钻瓜专利网。





