[发明专利]扩散模型的优化方法、图像生成方法、电子设备及介质在审

申请号：	202310475194.X	申请日：	2023-04-27
公开（公告）号：	CN116629323A	公开（公告）日：	2023-08-22
发明（设计）人：	王延峰;秦伊明;姚江超;张娅	申请（专利权）人：	上海人工智能创新中心;上海交通大学
主分类号：	G06N3/0475	分类号：	G06N3/0475;G06N3/094;G06T11/00
代理公司：	上海智晟知识产权代理事务所(特殊普通合伙) 31313	代理人：	张瑞莹;李镝的
地址：	200232 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	扩散模型优化方法图像生成电子设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种扩散模型的优化方法，其首先在迷你批次中从扩散过程的马尔可夫链路径中对步骤进行随机采样，得到当前批次中的步骤t，然后对步骤t的图像中的每个像素点进行随机加噪，得到步骤t的噪声图像，并基于其通过模型对原图进行预测，得到模型预测的噪声，然后计算模型预测的噪声与真实噪声之间的均方损失，最后从遵循预设分布的标签集合中进行采样，得到额外的随机标签，并基于随机标签对噪声图像的噪声进行重新预测，并计算分布调整损失。该方法在采样过程中调整条件转移概率，隐含地迫使生成的图像在每个采样步骤中逼近目标先验分布，补全了针对基于长尾分布数据训练更稳健的生成模型方向的研究空缺。

技术领域

本发明涉及机器学习技术领域，特别涉及一种扩散模型的优化方法、基于所述扩散模型的图像生成方法、电子设备及介质。

背景技术

计算机视觉领域中，常见的深度生成模型可以分为四类:生成对抗网络GAN、变分自编码器VAE、基于流的模型Flow-Based Models、以及扩散模型DM。这四种生成模型的训练及采样机制存在极大的区别。其中变分自编码器VAE包含编码器、解码器两部分，编码器首先使用隐藏层将高维数据投射到低维空间中，解码器则从低维特征中对高维数据进行重构。生成对抗网络GAN是当前生成领域的最主流的模型，其由一个生成器及一个辨别器组成，其中生成器负责产生真实的样本，判别器负责分辨真实样本和生成样本，生成对抗网络的训练机制需要交替地对生成器和辨别器进行更新。基于流的模型则直接对数据的概率进行学习，其使用的最主要的数学工具是一种强大的密度估计统计工具，归一化流NF，归一化流通过应用一系列可逆的转换函数、将简单分布转换为复杂分布，基于该数学工具，模型能够直接使用负对数似然函数对参数进行更新。扩散模型则是一种基于最大似然的生成模型，去噪扩散概率模型DDPM是其最典型、且被广泛使用的代表，扩散模型目前已经成为生成领域许多任务的最优结果，在众多领域得到应用，包括文本-图像生成、图像编辑、语音合成、医学成像、视频生成和对抗性学习等等。

现有的生成模型都是以数据的标签均匀分布为假设来训练的，然而，在现实世界中，数据的分布往往是非常偏斜的。特别是对于许多特定领域的生成任务，如医学图像、分类学的细粒度数据集和从网络上抓取的数据，很难为每个类别平等地收集大量的数据，有时头部和尾部类别的训练集的大小可能相差一百倍甚至更多，其中头部类别是指含有较多训练样本的类别，以及尾部类别是指含有较少训练样本的类别。由于分布严重不均匀的分布称为长尾分布，类别不均衡问题也被称为长尾问题。类别不均衡的问题在实际应用中非常常见，例如异常检测、自然界物种的不均衡分布、以及稀有病理数据的分析等等。在这类情况下，深度学习模型的性能往往被头部类所主导，对尾部类的学习则严重匮乏。不均衡学习的目标是从不均衡的数据中学习一个无偏的模型。依据应用场景，不均衡学习的研究可以涵盖分类模型、生成模型等诸多领域。在涉及分类任务的领域中，专门研究不均衡学习现象的技术被定义为长尾识别任务。该领域的研究可被划分为三种范式，包括类再平衡、信息增强和模块改进等方案。在类再平衡方法中，重采样方法通过调整不同类的样本抽样概率来实现类的再平衡，损失敏感学习根据不同的类来调整样本对应的损失权重，对数调整方法根据理论推导，直接改变模型输出值；信息增强中包括迁移学习和数据增广，迁移学习寻求将信息从源领域转移到目标领域，包括头尾知识迁移、模型预训练方法等，数据增广则是一种通用的防止过拟合的技巧；模块改进方法对分类器进行了调整，调整方式包括但不限于表征学习、分类器模块设计等。

但是在涉及生成模型的领域中，类别不均衡问题则存在较大的研究空缺。现有的生成模型领域中，类别不均衡问题的解决方案主要包括类别重平衡的生成对抗网络CBGAN以及群谱正则器，其均基于生成对抗网络设计。其中类别重平衡的生成对抗网络基于神经网络中观察到的指数遗忘现象，采用了重采样的方法引入一个新的、具备理论动机的类平衡正则器，从而鼓励模型关注代表性不足的尾部类别，但其性能有限。而群谱正则器则针对生成对抗网络的特定网络架构进行了调整，但是这也使得其无法被迁移到除了生成对抗网络其他模型中。

发明内容

针对现有技术中的部分或全部问题，以在类别不均衡的情况下提升扩散模型的性能，本发明第一方面提供一种扩散模型的优化方法，包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海人工智能创新中心;上海交通大学，未经上海人工智能创新中心;上海交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310475194.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种刀库机械手及换刀装置
下一篇：一种区块链数据查询方法、装置、电子设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]扩散模型的优化方法、图像生成方法、电子设备及介质在审

专利文献下载