[发明专利]用于视听合成的持续时间通知注意力网络在审
| 申请号: | 202080030508.X | 申请日: | 2020-08-06 |
| 公开(公告)号: | CN114041183A | 公开(公告)日: | 2022-02-11 |
| 发明(设计)人: | 卢恒;俞承柱;俞栋 | 申请(专利权)人: | 腾讯美国有限责任公司 |
| 主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/02;G10L13/04;G10L13/027 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 夏欢 |
| 地址: | 美国加利福尼亚州*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 视听 合成 持续时间 通知 注意力 网络 | ||
1.一种方法,包括:
由设备接收包括文本构成要素序列的文本输入;
由所述设备并使用持续时间模型来确定所述文本构成要素的各个时间性持续时间;
由所述设备基于所述文本构成要素序列生成第一频谱组;
由所述设备基于所述第一频谱组和所述文本构成要素序列的所述各个时间性持续时间生成第二频谱组;
由所述设备基于所述第二频谱组生成频谱图帧;
由所述设备基于所述频谱图帧生成音频波形;
由所述设备生成与所述音频波形相对应的视频信息;以及
由所述设备基于所述视频信息提供所述音频波形和对应视频作为所述设备的输出。
2.根据权利要求1所述的方法,还包括:
训练所述持续时间模型。
3.根据权利要求1所述的方法,其中,所述文本输入通过以下获得:
接收包括对应输入音频波形的输入视频作为输入;
由所述设备生成与所述输入音频波形相对应的输入视频信息;
由所述设备基于所述输入音频波形生成输入频谱图帧;
由所述设备基于所述输入频谱图帧生成第一输入频谱组;
由所述设备基于所述第一输入频谱组生成第二输入频谱组;以及
由所述设备并使用所述持续时间模型确定所述文本输入。
4.根据权利要求1所述的方法,其中,所述文本构成要素是音素或字符。
5.根据权利要求1所述的方法,还包括:
由所述设备接收与情绪状态相对应的信息,所述情绪状态与所述文本输入相关联,以及
其中,作为所述输出提供的所述音频波形和对应视频基于与所述情绪状态相对应的所述信息。
6.根据权利要求1所述的方法,其中,同时执行由所述设备基于所述视频信息提供所述音频波形和所述对应视频作为所述设备的输出。
7.根据权利要求2所述的方法,其中,所述训练持续时间模型包括多任务训练。
8.根据权利要求1所述的方法,其中,输出的音频波形和输出的对应视频被应用于虚拟人物。
9.根据权利要求1所述的方法,其中,所述第二频谱组包括梅尔频率倒谱频谱。
10.根据权利要求2所述的方法,其中,训练所述持续时间模型包括使用预测帧组和训练文本构成要素。
11.一种设备,包括:
至少一个存储器,所述至少一个存储器被配置成存储程序代码;
至少一个处理器,所述至少一个处理器被配置成读取所述程序代码并且按照由所述程序代码指示的进行操作,所述程序代码包括:
接收代码,所述接收代码被配置成使所述至少一个处理器接收包括文本构成要素序列的文本输入;
确定代码,所述确定代码被配置成使所述至少一个处理器使用持续时间模型确定所述文本构成要素的各个时间性持续时间;
生成代码,所述生成代码被配置成使所述至少一个处理器:
基于所述文本构成要素序列生成第一频谱组;
基于所述第一频谱组和所述文本构成要素序列的各个时间性持续时间生成第二频谱组;
基于所述第二频谱组生成频谱图帧;
基于所述频谱图帧生成音频波形;
生成与所述音频波形相对应的视频信息;以及
提供代码,所述提供代码被配置成使所述至少一个处理器提供所述音频波形和对应视频作为输出。
12.根据权利要求11所述的设备,其中,所述程序代码还包括被配置成训练所述持续时间模型的训练代码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯美国有限责任公司,未经腾讯美国有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080030508.X/1.html,转载请声明来源钻瓜专利网。





