[发明专利]生成针对用户的语音模型在审
| 申请号: | 202080078874.2 | 申请日: | 2020-10-14 |
| 公开(公告)号: | CN114667565A | 公开(公告)日: | 2022-06-24 |
| 发明(设计)人: | L·沃尔夫;D·瓦斯克斯;T·兹维;Y·N·塔伊戈曼;A·波利亚克;H·帕克 | 申请(专利权)人: | 脸谱科技有限责任公司 |
| 主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/047;G10L25/30 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 董莘 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 生成 针对 用户 语音 模型 | ||
1.一种方法,包括:
由包括神经网络的编码器从用户接收多个音频样本;
由解码器从所述编码器接收值序列;以及
由所述解码器使用所述值序列以及所述用户的一个或多个说话者嵌入来建立对应于所述用户的所述多个音频样本的语音模型。
2.根据权利要求1所述的方法,还包括:
将所述语音模型建立为机器学习模型;以及
使用所述语音模型和来自所述用户的输入文本生成针对所述用户的合成音频输出。
3.根据权利要求1所述的方法,还包括:
接收来自所述用户的输入文本;
标识针对所述用户的所述语音模型和所述用户的所述一个或多个说话者嵌入中的至少一个说话者嵌入;以及
使用所述语音模型和所述一个或多个说话者嵌入中的至少一个说话者嵌入,将所述输入文本转换为合成音频输出,以对所述用户的语音进行建模。
4.根据权利要求1所述的方法,还包括:由所述解码器使用所述一个或多个说话者嵌入和来自所述用户的一个或多个后续的音频样本,来训练针对所述用户的所述语音模型。
5.根据权利要求1所述的方法,还包括:
由所述解码器将所述用户的所述一个或多个说话者嵌入应用于所述值序列,以生成调节信号;以及
由所述解码器将所述调节信号提供给多个残差层,以建立所述语音模型。
6.根据权利要求1所述的方法,还包括:由所述编码器经由所述编码器的所述神经网络的至少一个卷积块的至少一个卷积层,来修改所述多个音频样本的采样率。
7.根据权利要求1所述的方法,还包括:
将来自所述用户的一个或多个后续的音频样本提供给所述解码器的神经网络的第一残差层和第二残差层;以及
将所述一个或多个说话者嵌入提供给所述解码器的所述神经网络的所述第一残差层和所述第二残差层,其中来自所述第一残差层的输出被提供给所述第二残差层的输入,以训练针对所述用户的所述语音模型。
8.根据权利要求1所述的方法,其中,所述解码器包括神经网络,所述神经网络包括至少两个完全连接的残差层和归一化函数。
9.根据权利要求1所述的方法,还包括:由所述解码器将归一化函数应用于所述解码器的神经网络的多个残差层的输出,以建立所述语音模型。
10.一种设备,包括:
编码器,使用至少一个处理器被实现,所述编码器被配置为:
从用户接收多个音频样本;以及
将所述多个音频样本提供给所述编码器的神经网络,以生成对应于来自所述神经网络的一个或多个卷积层的输出的值序列;以及
解码器,使用所述至少一个处理器被实现,所述解码器被配置为:
从所述编码器接收所述值序列;以及
使用所述值序列以及所述用户的一个或多个说话者嵌入,来建立对应于所述用户的所述多个音频样本的语音模型。
11.根据权利要求10所述的设备,其中,所述设备还被配置为实现权利要求2至9中的任一项的方法。
12.一种非瞬态计算机可读介质,所述非瞬态计算机可读介质存储指令,所述指令在由一个或多个处理器执行时,使所述一个或多个处理器:
从用户接收多个音频样本;
将所述多个音频样本提供给神经网络,以生成对应于来自所述神经网络的一个或多个卷积层的输出的值序列;以及
使用所述值序列和所述用户的一个或多个说话者嵌入,建立对应于所述用户的所述多个音频样本的语音模型。
13.根据权利要求12所述的非瞬态计算机可读介质,还包括指令,所述指令在被所述一个或多个处理器执行时,还使所述一个或多个处理器实现权利要求2至9中的任一项的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于脸谱科技有限责任公司,未经脸谱科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080078874.2/1.html,转载请声明来源钻瓜专利网。





