[发明专利]端到端语音转换在审
申请号: | 201980094770.8 | 申请日: | 2019-11-26 |
公开(公告)号: | CN113678200A | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 法迪·比亚德希;罗恩·J·韦斯;亚历山大·克拉库恩;佩德罗·J·莫雷诺门希瓦尔 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L21/003 | 分类号: | G10L21/003;G10L13/027 |
代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 肖华 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 端到端 语音 转换 | ||
公开了用于端对端的语音转换的方法、系统、装置,包含在计算机存储介质上编码的计算机程序。在一方面,方法包括接收用户说出的一个或多个第一术语的第一话语的第一音频数据的动作。动作还包括提供第一音频数据作为对模型的输入,模型被配置为接收以第一声音说出的第一给定音频数据,并输出以合成声音说出的第二给定音频数据,而不对第一给定音频数据执行语音识别。动作还包括接收以合成声音说出的一个或多个第一术语的第二话语的第二音频数据。动作还包括提供以合成声音说出的一个或多个第一术语的第二话语的第二音频数据作为输出。
相关申请的交叉引用
本申请要求于2019年2月21日提交的美国申请62/808,627的优先权,该申请通过引用并入本文。
技术领域
本说明书通常涉及语音处理。
背景技术
语音处理(Speech Processing)是对语音信号和信号处理方法的研究。信号通常以数字表示进行处理,因此语音处理可以看作是应用于语音信号的数字信号处理的特例。语音处理的各方面包括语音信号的获取、处理、存储、传输和输出。
发明内容
语音合成器通常需要转录(Transcription)作为输入。语音合成器接收转录并输出转录的合成话语(Synthesized Utterance)的音频数据。为了将用户的语音转换为合成话语,自动语音识别器必须对用户语音的音频数据执行自动语音识别,以生成用户语音的转录。然后语音合成器将生成用户语音的转录的合成话语。
这种执行自动语音识别和语音合成的技术可能会对计算系统造成负担。能够将从用户接收的语音音频转换为与用户的声音(Voice)不同的声音的语音音频,而无需对用户的语音执行自动语音识别的过程将是有益的。下面的讨论描述了在不执行语音识别的情况下,利用机器学习来训练的模型将说话者语音中的语音音频转换为不同语音中的语音音频的过程。模型接收说话者所说的语音音频并将语音音频转换为数学表示。模型在不对说话者所说的语音音频进行语音识别的情形下,将数学表示转换为不同语音的语音音频。
在一些实施方式中,语音合成系统能够将包括第一声音(Voice)中的话语的第一音频数据转换为包括第二声音中的相同话语的第二音频数据。可以通过直接作用于第一个音频数据的样本或特征来完成转换,而无需将音频转换为中间表示(例如,文本、电话等)。该系统可以使用序列到序列来对潜在包括背景噪声的任意语音进行归一化(Normalize),并以单个预定义目标说话者的声音生成相同的内容。源语音可以来自任何说话者或口音,并且可能包含复杂的韵律模式(Prosodic Pattern)、缺陷(Imperfection)和背景噪声,所有这些都通过归一化过程去除,因为第一音频数据被转换成干净的第二音频数据,其带有固定口音和连贯发音(Articulation)及韵律。换句话说,系统可用于抛掉(Project Away)包括说话者特征的所有非语言信息,并仅保留所说的内容,而不是说的人、方式或地点。
这种类型的归一化有多种潜在的应用。将任何语音完全归一化为具有干净音频的单个说话者可以显著简化语音识别模型,该模型可以简化为支持单个说话者。在记录敏感和私人语音数据时,删除说话者的身份可能会很有用,这使得用户仅将转换后的语音传输到删除了“声学”身份的服务器。与声学伪装的音频不同的是,将所有口音减少至具有预定义口音的单一声音还可以减轻偏见和歧视,同时保持自然人的声音,例如,用于电话面试或提供给招聘委员会的候选人谈话录音。其他应用将有助于理解对于听众来说陌生的口音的语音内容,即提高重口音语音的可理解性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980094770.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:使用矩阵代码显示内容的方法和系统
- 下一篇:转炉设备