[发明专利]用于视听合成的持续时间通知注意力网络在审

申请号：	202080030508.X	申请日：	2020-08-06
公开（公告）号：	CN114041183A	公开（公告）日：	2022-02-11
发明（设计）人：	卢恒;俞承柱;俞栋	申请（专利权）人：	腾讯美国有限责任公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/02;G10L13/04;G10L13/027
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	夏欢
地址：	美国加利福尼亚州***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于视听合成持续时间通知注意力网络
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种方法，包括：

由设备接收包括文本构成要素序列的文本输入；

由所述设备并使用持续时间模型来确定所述文本构成要素的各个时间性持续时间；

由所述设备基于所述文本构成要素序列生成第一频谱组；

由所述设备基于所述第一频谱组和所述文本构成要素序列的所述各个时间性持续时间生成第二频谱组；

由所述设备基于所述第二频谱组生成频谱图帧；

由所述设备基于所述频谱图帧生成音频波形；

由所述设备生成与所述音频波形相对应的视频信息；以及

由所述设备基于所述视频信息提供所述音频波形和对应视频作为所述设备的输出。

2.根据权利要求1所述的方法，还包括：

训练所述持续时间模型。

3.根据权利要求1所述的方法，其中，所述文本输入通过以下获得：

接收包括对应输入音频波形的输入视频作为输入；

由所述设备生成与所述输入音频波形相对应的输入视频信息；

由所述设备基于所述输入音频波形生成输入频谱图帧；

由所述设备基于所述输入频谱图帧生成第一输入频谱组；

由所述设备基于所述第一输入频谱组生成第二输入频谱组；以及

由所述设备并使用所述持续时间模型确定所述文本输入。

4.根据权利要求1所述的方法，其中，所述文本构成要素是音素或字符。

5.根据权利要求1所述的方法，还包括：

由所述设备接收与情绪状态相对应的信息，所述情绪状态与所述文本输入相关联，以及

其中，作为所述输出提供的所述音频波形和对应视频基于与所述情绪状态相对应的所述信息。

6.根据权利要求1所述的方法，其中，同时执行由所述设备基于所述视频信息提供所述音频波形和所述对应视频作为所述设备的输出。

7.根据权利要求2所述的方法，其中，所述训练持续时间模型包括多任务训练。

8.根据权利要求1所述的方法，其中，输出的音频波形和输出的对应视频被应用于虚拟人物。

9.根据权利要求1所述的方法，其中，所述第二频谱组包括梅尔频率倒谱频谱。

10.根据权利要求2所述的方法，其中，训练所述持续时间模型包括使用预测帧组和训练文本构成要素。

11.一种设备，包括：

至少一个存储器，所述至少一个存储器被配置成存储程序代码；

至少一个处理器，所述至少一个处理器被配置成读取所述程序代码并且按照由所述程序代码指示的进行操作，所述程序代码包括：

接收代码，所述接收代码被配置成使所述至少一个处理器接收包括文本构成要素序列的文本输入；

确定代码，所述确定代码被配置成使所述至少一个处理器使用持续时间模型确定所述文本构成要素的各个时间性持续时间；

生成代码，所述生成代码被配置成使所述至少一个处理器：

基于所述文本构成要素序列生成第一频谱组；

基于所述第一频谱组和所述文本构成要素序列的各个时间性持续时间生成第二频谱组；

基于所述第二频谱组生成频谱图帧；

基于所述频谱图帧生成音频波形；

生成与所述音频波形相对应的视频信息；以及

提供代码，所述提供代码被配置成使所述至少一个处理器提供所述音频波形和对应视频作为输出。

12.根据权利要求11所述的设备，其中，所述程序代码还包括被配置成训练所述持续时间模型的训练代码。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯美国有限责任公司，未经腾讯美国有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202080030508.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于视听合成的持续时间通知注意力网络在审

专利文献下载