[发明专利]语音处理装置、方法和介质在审
申请号: | 201910066430.6 | 申请日: | 2019-01-24 |
公开(公告)号: | CN111554316A | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 石自强;林慧镔;刘柳;刘汝杰 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L15/06;G10L25/51;G10L25/60 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 唐京桥;刘烨 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 装置 方法 介质 | ||
公开了一种语音处理装置,包括:生成器,其被配置成将包括两个或更多个原始单一语音的混合语音分离成两个或更多个分离的单一语音;以及判别器,其被配置成区分所述分离的单一语音是否是所述原始单一语音,其中,对所述生成器和所述判别器进行训练,直到所述判别器不再能够区分所述分离的单一语音是否是所述原始单一语音。根据本公开的装置不仅旨在最大化信号与失真比来获得更好的语音质量,其还将语音分离和提高语音质量集成到单个模型中。此外,根据本公开的装置通过这个过程执行生成性对抗训练,这使得分离的语音与真实的语音难以区分。
技术领域
本公开涉及语音处理的技术领域,具体地涉及采用结合机器学习技术的语音处理装置和方法。
背景技术
这个部分提供了与本公开有关的背景信息,这不一定是现有技术。
多语音单声道语音分离具有广泛的应用。例如,在许多人讲话的家庭环境或会议环境中,人类听觉系统可以容易地从多个讲话者的混合语音中跟踪和跟随目标讲话者的语音。在这种情况下,如果要执行自动语音识别和讲话者识别,则需要将目标讲话者的干净语音信号从混合语音中分离,以完成随后的识别工作。因此,为了在语音或讲话者识别任务中实现令人满意的性能,必须解决该问题。
发明内容
这个部分提供了本公开的一般概要,而不是其全部范围或其全部特征的全面披露。
本公开的目的在于提供一种有效的端到端装置来进行自动语音分离。根据本公开的装置不仅旨在最大化信号与失真比(Signal-to-DistortionRatio,SDR)来获得更好的语音质量,其还将语音分离和提高语音质量集成到单个模型中。根据本公开的技术方案通过这个过程执行生成性对抗训练,这使得分离的语音与真实的语音难以区分。
根据本公开的一方面,提供了一种语音处理装置,包括:生成器,其被配置成将包括两个或更多个原始单一语音的混合语音分离成两个或更多个分离的单一语音;以及判别器,其被配置成区分所述分离的单一语音是否是所述原始单一语音,其中,对所述生成器和所述判别器进行训练,直到所述判别器不再能够区分所述分离的单一语音是否是所述原始单一语音。
根据本公开的另一方面,提供了一种语音处理方法,包括:由生成器将包括两个或更多个原始单一语音的混合语音分离成两个或更多个分离的单一语音;以及由判别器区分所述分离的单一语音是否是所述原始单一语音,其中,对所述生成器和所述判别器进行训练,直到所述判别器不再能够区分所述分离的单一语音是否是所述原始单一语音。
根据本公开的另一方面,提供了一种程序产品,该程序产品包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据本公开的语音处理方法。
根据本公开的另一方面,提供了一种机器可读存储介质,其上携带有根据本公开的程序产品。
使用根据本公开的语音处理装置和方法能够在分离混合语音的同时提高所分离的语音的质量。
从在此提供的描述中,进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的,而不旨在限制本公开的范围。
附图说明
在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施,并且不旨在限制本公开的范围。在附图中:
图1为根据本公开的一个实施例的语音处理装置100的框图;
图2为根据本公开的一个实施例的语音处理方法的流程图;以及
图3为其中可以实现根据本公开的实施例的语音处理装置和语音处理方法的通用个人计算机的示例性结构的框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910066430.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:即时通讯添加好友的方法及装置
- 下一篇:一种启动应用的控件加载方法及装置