[发明专利]生成模型训练方法和装置、噪声尺度生成方法和计算设备在审

申请号：	202110785953.3	申请日：	2021-07-12
公开（公告）号：	CN113822321A	公开（公告）日：	2021-12-21
发明（设计）人：	林永业;王珺	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京市柳沈律师事务所 11105	代理人：	王娟
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	生成模型训练方法装置噪声尺度计算设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

公开了生成模型训练方法和装置、噪声尺度生成方法和计算设备。训练方法包括：获取训练样本集，所述训练样本集包括多个训练样本，所述多个训练样本为独立同分布的样本；从所述训练样本集中每次随机选择一个训练样本，并确定所述训练样本对应的噪声水平；利用随机选择的每个训练样本以及对应的噪声水平，对噪声去除网络和噪声调度网络进行训练，所述噪声去除网络与从噪声输入到期望输出的反向过程相对应，并且所述噪声调度网络与从来自所述训练样本集的训练样本到输出带有噪声的输出的正向过程相对应。

技术领域

本申请涉及计算机领域，更具体地，涉及用于生成期望输出的生成模型的训练方法和装置、生成用于样本生成模型中的噪声尺度序列的方法、以及计算设备。

背景技术

生成模型也称为概率生成模型，是概率统计和机器学习中的一类重要模型，指可以用于随机生成可观测数据的模型。生成模型的生成过程可以理解为通过学习训练样本集的数据分布，而使用带有一些变量的学习得到的分布来生成新的样本，生成的新样本的分布与训练样本集的真实分布接近。

生成模型在高保真图像生成、高质量语音合成、自然语言生成(1)、无监督表示学习等方面广泛应用，并取得了巨大进步。

生成模型的成功架构主要分为生成性对抗网络(GAN)和基于似然的方法。生成性对抗网络(GAN)采用对抗性训练程序，但训练可能不稳定，并且模型难以放大或与其他GAN模型进行评估；基于似然的方法使用对数似然或替代损失(surrogate loss)作为训练目标，但它们也有内在的局限性，例如样本生成(sampling)速度较慢、采用证据下界(ELBO)而导致样本质量不足够高。

一类新兴的基于似然的模型是扩散模型能够产生较高质量的样本。然而，也存在一定的缺陷，例如去噪扩散概率模型(DDPM)比其他生成模型(如GAN和变分自编码器(VAE))慢两到三个数量级，因为它需要在训练期间进行数千个扩散步骤来学习训练样本集的分布，在样本生成过程时往往需要大量的去噪步骤。WaveGrad虽然作为DDPM的延伸，基于网格搜索算法可以采用较少的样本生成步骤，但是需要在训练模型之后扫描噪声调度的所有可能区域，并且采用O(M^N)复杂度(M是搜索仓(bin)的数量，N为推理期间的迭代采样数量)，因此，网格搜索算法对于M和N是不可缩放的(例如，该方法对于T10是非常慢的)，因此样本生成速度也非常慢。

因此，需要一种能够快速生成新的样本并且生成的样本具有高质量的生成模型。

发明内容

根据本申请的一方面，提供了一种用于生成期望输出的生成模型的训练方法，包括：获取训练样本集,所述训练样本集包括多个训练样本,所述多个训练样本为独立同分布的样本；从所述训练样本集中每次随机选择一个训练样本，并确定所述训练样本对应的噪声水平；利用随机选择的每个训练样本以及对应的噪声水平，对噪声去除网络和噪声调度网络进行训练，所述噪声去除网络和所述噪声调度网络被包括在生成模型中；其中，所述噪声去除网络与从噪声输入到期望输出的反向过程相对应，并且所述噪声调度网络与从来自所述训练样本集的训练样本到输出带有噪声的输出的正向过程相对应。

根据本申请的另一方面，还提供了一种生成用于生成模型中的噪声尺度序列的方法，包括：获取随机噪声输入、噪声水平、以及噪声尺度，分别作为第N个数据、待生成噪声水平序列中的第N个噪声水平、待生成噪声尺度序列中的第N个噪声尺度，N为第一数量；对于第n个噪声水平：利用生成模型中的噪声去除网络，基于第n个数据、第n个噪声水平和第n个噪声尺度，生成第n-1个数据；基于第n个噪声水平(α)和第n个噪声尺度(β)，确定第n-1个噪声水平(α)，基于所述第n-1个噪声水平(α)和第n个噪声尺度(β)，确定第n-1个噪声尺度约束(μ)；利用生成模型中的噪声调度网络，基于所述第n-1个噪声尺度约束(μ)和所述第n-1个数据，生成噪声调度因子；基于所述第n-1个噪声尺度约束(μ)以及所述噪声调度因子，生成所述第n-1个噪声尺度，其中，n为小于等于N且大于等于1的整数，所述生成模型根据上述方法来进行训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技（深圳）有限公司，未经腾讯科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110785953.3/2.html，转载请声明来源钻瓜专利网。

上一篇：医学影像处理方法、装置、设备及存储介质
下一篇：水体中大体积混凝土结构的冷却控制方法及循环冷却系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]生成模型训练方法和装置、噪声尺度生成方法和计算设备在审

专利文献下载