[发明专利]生成模型推理中的动态回火采样在审
| 申请号: | 202080086881.7 | 申请日: | 2020-12-17 |
| 公开(公告)号: | CN114830231A | 公开(公告)日: | 2022-07-29 |
| 发明(设计)人: | 帕布洛·巴雷拉·冈萨雷斯 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G10L19/005 | 分类号: | G10L19/005;G10L25/30 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 邓聪惠;周亚荣 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 生成 模型 推理 中的 动态 回火 采样 | ||
1.一种对输出音频样本(22)进行采样的方法(800),所述方法(800)包括:
在活动语音通信会话中的丢包隐藏事件期间:
由数据处理硬件(144)在具有开始时间和结束时间的时间窗口期间获得先前输出音频样本(22)的序列,所述结束时间在所述丢包隐藏事件开始时发生;以及
在所述丢包隐藏事件期间的多个时间步(322)中的每个时间步处:
由数据处理硬件(144)使用语音合成模型(160)为对应时间步生成可能输出音频样本(22)的概率分布(164、342),所述概率分布(164、342)中的每个可能输出音频样本(22)包括指示对应的可能输出音频样本(22)表示所述对应时间步处的话语的一部分的可能性的相应概率;
由所述数据处理硬件(144)基于所述多个时间步(322)中的对应时间步之前的时间步(322)的数量、初始温度采样值(324)、最小温度采样值(326)和最大温度采样值(328)的函数来确定温度采样值(332);
由所述数据处理硬件(144)将所述温度采样值(332)应用于所述概率分布(164、342),以调整从所述概率分布(164、342)选择可能输出音频样本(22)的概率;
由所述数据处理硬件(144)基于与所述可能输出音频样本(22)中的每一个相关联的经调整的概率来随机地选择所述概率分布(164、342)的可能输出音频样本(22)中的一个;以及
由所述数据处理硬件(144)使用随机地选择的输出音频样本(22)生成合成语音(172)。
2.如权利要求1所述的方法(800),其中,所述函数是线性函数。
3.如权利要求2所述的方法(800),其中,所述最大温度采样值(328)为0.85。
4.如权利要求1-3中的任一项所述的方法(800),其中,所述最小温度采样值(326)为0.25。
5.如权利要求1-4中的任一项所述的方法(800),其中,所述初始温度采样值(324)与所述最小温度采样值(326)相同。
6.如权利要求1-5中的任一项所述的方法(800),其中,确定所述温度采样值包括:
在所述丢包隐藏事件期间,确定所述多个时间步(322)中的在所述对应时间步之前的时间步(322)的数量;以及
当所述时间步(322)的数量满足阈值时,使所述温度采样值增加设定量。
7.如权利要求6所述的方法(800),其中,所述阈值包括十个时间步的倍数。
8.如权利要求6或7所述的方法(800),其中,所述设定量为0.1。
9.如权利要求1-8中的任一项所述的方法(800),其中,确定所述温度采样值(332)包括:在所述丢包隐藏事件期间,基于所述多个时间步(322)中的在所述对应时间步之前的时间步(322)的数量来增加所述温度采样值(332)。
10.如权利要求1-9中的任一项所述的方法(800),其中,确定所述温度采样值(332)进一步包括:一旦所述温度采样值(332)等于所述最大温度采样值(328),则将所述温度采样值(332)保持在所述最大温度采样值(328)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080086881.7/1.html,转载请声明来源钻瓜专利网。





