[发明专利]用于目标语音分离的具有神经网络的多抽头最小方差无失真响应波束成形器在审
| 申请号: | 202180024528.0 | 申请日: | 2021-06-10 |
| 公开(公告)号: | CN115335899A | 公开(公告)日: | 2022-11-11 |
| 发明(设计)人: | 徐勇;于蒙;张世雄;翁超;刘建明;俞栋 | 申请(专利权)人: | 腾讯美国有限责任公司 |
| 主分类号: | G10L15/16 | 分类号: | G10L15/16;G06N3/08;G10L15/00;G10L15/08;G10L15/22;G10L15/25 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 赵翠萍;徐川 |
| 地址: | 美国加利福尼亚州*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 目标 语音 分离 具有 神经网络 抽头 最小 方差 失真 响应 波束 成形 | ||
提供了一种用于自动语音识别的方法、计算机系统和计算机可读介质。接收视频数据和音频数据,视频数据和音频数据对应于一个或多个说话者。对所接收的音频数据和视频数据进行最小方差无失真响应函数运算。基于对所运算的最小方差无失真响应函数的输出的反向传播,生成与一个或多个说话者中的目标说话者相对应的预测目标波形。
相关申请的交叉引用
本申请要求于2020年7月10日提交的申请号为No.16/926,138的美国申请的优先权,其全部内容通过引用并入本文。
技术领域
本公开总体上涉及数据处理领域,尤其涉及语音识别。
背景技术
基于深度学习的语音增强和语音分离方法受到了广泛的研究关注。然而,单纯基于神经网络的前端方法可能会导致非线性语音失真。语音失真会降低语音识别系统的性能,即使对于已经对背景噪声足够鲁棒的商业通用自动语音识别引擎而言也是如此。最小方差无失真响应(Minimum Variance Distortionless Response,MVDR)波束成形器明确要求在目标方向上进行无失真滤波,并且在分离语音中的语音失真显著减少。
发明内容
实施例涉及一种用于基于多抽头(Multi-Tap)最小方差无失真响应(MVDR)进行自动语音识别的方法、系统和计算机可读介质。根据一方面,提供了一种用于自动语音识别的方法。该方法包括:接收视频数据和音频数据,视频数据和音频数据对应于一个或多个说话者。对所接收的音频数据和视频数据进行最小方差无失真响应函数运算。基于对所运算的最小方差无失真响应函数的输出的反向传播,生成与一个或多个说话者中的目标说话者相对应的预测目标波形。
根据另一方面,提供了一种用于自动语音识别的计算机系统。该计算机系统可以包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备、以及存储在一个或多个存储设备中的至少一个上的程序指令,程序指令通过一个或多个存储器中的至少一个由一个或多个处理器中的至少一个来执行,由此计算机系统能够执行方法。该方法可包括:接收视频数据和音频数据,视频数据和音频数据对应于一个或多个说话者。对所接收的音频数据和视频数据进行最小方差无失真响应函数运算。基于对所运算的最小方差无失真响应函数的输出的反向传播,生成与一个或多个说话者中的目标说话者相对应的预测目标波形。
根据又一个方面,提供了一种用于自动语音识别的计算机可读介质。计算机可读介质可包括一个或多个计算机可读存储设备和存储在所述一个或多个有形存储设备中的至少一个上的程序指令,程序指令可由处理器执行。程序指令可由处理器执行,以用于执行方法,该方法相应地可包括:接收视频数据和音频数据,视频数据和音频数据对应于一个或多个说话者。对所接收的音频数据和视频数据进行最小方差无失真响应函数运算。基于对所运算的最小方差无失真响应函数的输出的反向传播,生成与一个或多个说话者中的目标说话者相对应的预测目标波形。
附图说明
这些和其它目的、特征和优点将通过下面结合附图阅读的对说明性实施例的详细描述而变得显而易见。附图的各种特征未按比例绘制,原因是图示要清楚地便于本领域技术人员结合详细描述来理解。在附图中:
图1示出了根据至少一个实施例的联网计算机环境;
图2是根据至少一个实施例的用于自动语音识别的系统的框图;
图3是示出了根据至少一个实施例的由用于自动语音识别的程序执行的步骤的操作流程图;
图4是根据至少一个实施例的图1中描绘的计算机和服务器的内部组件和外部组件的框图;
图5是根据至少一个实施例的包括图1中描绘的计算机系统的说明性云计算环境的框图;以及
图6是根据至少一个实施例的图5中的说明性云计算环境的功能层的框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯美国有限责任公司,未经腾讯美国有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180024528.0/2.html,转载请声明来源钻瓜专利网。





