[发明专利]生成模型推理中的动态回火采样在审
| 申请号: | 202080086881.7 | 申请日: | 2020-12-17 |
| 公开(公告)号: | CN114830231A | 公开(公告)日: | 2022-07-29 |
| 发明(设计)人: | 帕布洛·巴雷拉·冈萨雷斯 | 申请(专利权)人: | 谷歌有限责任公司 |
| 主分类号: | G10L19/005 | 分类号: | G10L19/005;G10L25/30 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 邓聪惠;周亚荣 |
| 地址: | 美国加利*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 生成 模型 推理 中的 动态 回火 采样 | ||
一种方法(800)包括在事件期间获得先前输出音频样本(22)的序列。在事件期间的每个时间步(322)处,该方法包括生成用于该时间步的可能输出音频样本的概率分布。每个样本包括指示对应样本表示时间步处的话语的一部分的可能性的相应概率(164)。该方法还包括基于在该时间步之前的时间步的数量以及初始、最小和最大温度采样值(324、326、328)的函数来确定温度采样值(332)。该方法还包括将温度采样值应用于概率分布以调整选择可能样本的概率,并基于调整后的概率随机地选择可能样本中的一个。该方法还包括使用随机地选择的样本生成合成语音(172)。
技术领域
本公开涉及生成模型推理中的动态回火(tempered)采样。
背景技术
回归生成模型可以用于丢包隐藏(packet loss concealment),这是一种用于掩盖网际协议语音(VoIP)通信中丢包的影响的技术。这些模型接收音频样本序列,并且可以直接推断序列中的下一个音频样本,或者可替代地,推断概率密度函数,该概率密度函数为多个音频样本中的每一个提供对应的音频样本是序列中的下一个音频样本的相对似然性。概率密度函数可以以多种方式被采样,包括直接采样、平均采样、模式采样和回火采样。
发明内容
本发明的一个方面提供一种对输出音频样本进行采样的方法。该方法包括:在活动语音通信会话中的丢包隐藏事件期间:由数据处理硬件在具有开始时间和结束时间的时间窗口期间获得先前输出音频样本的序列。所述结束时间在所述丢包隐藏事件开始时发生。在所述丢包隐藏事件期间的多个时间步中的每个时间步处,该方法包括由数据处理硬件使用语音合成模型为所述对应时间步生成可能输出音频样本的概率分布。所述概率分布中的每个可能输出音频样本包括指示所述对应的可能输出音频样本表示所述对应时间步处的话语的一部分的可能性的相应概率。该方法还包括由所述数据处理硬件基于所述多个时间步中的对应时间步之前的时间步的数量、初始温度采样值、最小温度采样值和最大温度采样值的函数来确定温度采样值。该方法还包括由所述数据处理硬件将所述温度采样值应用于所述概率分布,以调整从所述概率分布选择可能输出音频样本的概率。该方法还包括由所述数据处理硬件基于与所述可能输出音频样本中的每一个相关联的经调整的概率来随机地选择所述概率分布的可能输出音频样本中的一个以及由所述数据处理硬件使用所述随机地选择的输出音频样本生成合成语音。
本公开的实现方式可以包括以下可选特征中的一个或多个。在一些实现方式中,所述函数是线性函数。在一些示例中,最大温度采样值为0.85。可选地,最小温度采样值为0.25。所述初始温度采样值可以与最小温度采样值相同。
确定所述温度采样值可以包括在所述丢包隐藏事件期间,确定所述多个时间步中的在所述对应时间步之前的时间步的数量;以及当所述时间步的数量满足阈值时,使所述温度采样值增加设定量。在一些实现方式中,阈值是十个时间步的倍数。设定量可以是0.1。在一些示例中,确定所述温度采样值包括在所述丢包隐藏事件期间,基于所述多个时间步中的在所述对应时间步之前的时间步的数量来增加所述温度采样值。可选地,确定所述温度采样值进一步包括:一旦所述温度采样值等于所述最大温度采样值,则将所述温度采样值保持在所述最大温度采样值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080086881.7/2.html,转载请声明来源钻瓜专利网。





