[发明专利]语音识别系统有效
申请号: | 201880015644.4 | 申请日: | 2018-02-23 |
公开(公告)号: | CN110383377B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 渡部晋治;落合翼;堀贵明;J·R·赫尔歇 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G10L21/0216 | 分类号: | G10L21/0216;G10L15/16;G10L15/20 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王小东;黄纶伟 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种语音识别系统包括接收包括语音信号的声信号的多个麦克风;从声信号生成多通道输入的输入接口;存储多通道语音识别网络的一个或多个储存器,其中,多通道语音识别网络包括从多通道输入生成时间‑频率掩模的掩模估计网络;被训练为使用时间‑频率掩模从多通道输入中选择基准通道输入并且基于基准通道输入生成增强语音数据集的波束形成器网络;以及被训练为将增强语音数据集变换为文本的编码器‑解码器网络。系统还包括与一个或多个储存器关联地使用多通道语音识别网络以从多通道输入生成文本的一个或多个处理器;和渲染文本的输出接口。 | ||
搜索关键词: | 语音 识别 系统 | ||
【主权项】:
1.一种语音识别系统,该语音识别系统包括:多个麦克风,该多个麦克风接收包括语音信号的声信号;输入接口,该输入接口从所述声信号生成多通道输入;一个或多个储存器,该一个或多个储存器存储多通道语音识别网络,其中,所述多通道语音识别网络包括:掩模估计网络,该掩模估计网络从所述多通道输入生成时间‑频率掩模;波束形成器网络,该波束形成器网络被训练为使用所述时间‑频率掩模从所述多通道输入中选择基准通道输入,并且基于所述基准通道输入生成增强语音数据集;以及编码器‑解码器网络,该编码器‑解码器网络被训练为将所述增强语音数据集变换为文本;一个或多个处理器,该一个或多个处理器与所述一个或多个储存器关联地使用所述多通道语音识别网络以从所述多通道输入生成所述文本;以及输出接口,该输出接口渲染所述文本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201880015644.4/,转载请声明来源钻瓜专利网。