[发明专利]一种基于BlockGAN的图像生成和识别模块及方法有效
申请号: | 202010044383.8 | 申请日: | 2020-01-15 |
公开(公告)号: | CN111311702B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 张宝军;钱晓岚;王雪梅;卓荣庆;俞定国 | 申请(专利权)人: | 浙江传媒学院 |
主分类号: | G06T11/00 | 分类号: | G06T11/00;G06V10/26;G06V10/80;G06V10/82;G06N3/0475 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 陈升华 |
地址: | 310018 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 blockgan 图像 生成 识别 模块 方法 | ||
1.一种基于BlockGAN的图像生成和识别模块,其特征在于,包括:
对图像进行分割的图像分割模块;
对所述图像分割模块分割的子图像进行模式分解的模式分解模块;
与所述模式分解模块连接的多个区块,多个区块形成一个BlockGAN,每个区块中包含一个生成器以及与所述生成器连接的多个判别器,每个区块中多个判别器采用并行连接,每个区块负责对包含单一物体类型的图像进行生成和判别,每个区块中的多个判别器负责对图像中同一物体的多个模态进行判别;
将所述多个区块中的生成器生成的各个要素进行融合的第一融合模块,所述的第一融合模块输出融合的多模态图像;将所述多个区块中的判别器得到的判别结果进行汇聚的第二融合模块,所述的第二融合模块输出结果向量;
所述模式分解模块将分割后的子图像进行模式分解,每个子图像模式分解后分别输入到各个区块中,进入到每个区块中并行的多个判别器,一个区块中并行的多个判别器的判别结果通过所述第一融合模块融合,得到对单一子图像的判别,多个区块的所有判别器的判别结果通过所述第二融合模块融合。
2.一种基于BlockGAN的图像生成和识别方法,其特征在于,包括以下步骤:
1)BlockGAN包括多个区块,每个区块中包含一个生成器以及与所述生成器连接的多个判别器,每个区块负责对包含单一物体类型的图像进行生成和判别,每个区块中的多个判别器负责对图像中同一物体的多个模态进行判别;
2)模型训练阶段,对每个区块用包含单一物体类型的图像采用生成器和判别器的损失函数进行训练,在对抗中提升生成器和判别器的性能,生成器用于生成该物体,而判别器用于识别该物体;
3)输入图像,将图像分割,之后将分割后的子图像进行模式分解,每个子图像模式分解后分别输入到各个区块中,进入到每个区块中并行的多个判别器,一个区块中并行的多个判别器的判别结果融合,得到对单一子图像的判别,多个区块的所有判别器的判别结果融合,得到对输入图像的判别;
4)每个区块的生成器生成包含单一物体类型的图像,多个区块的生成器生成的所有图像融合后,得到多模态的图像。
3.根据权利要求2所述的基于BlockGAN的图像生成和识别方法,其特征在于,步骤1)中,BlockGAN包括多个区块,每个区块中包含一个生成器以及与所述生成器连接的多个判别器,形成判别矩阵,具体为:
其中:
m表示BlockGAN中区块的数量;
n表示每个区块中判别器的数量;
dij表示第i个区块中第j个判别器的判别结果;
Dm×n表示判别矩阵。
4.根据权利要求2所述的基于BlockGAN的图像生成和识别方法,其特征在于,步骤2)中,生成器和判别器的损失函数具体为:
其中:
Vij表示目标函数;
i表示BlockGAN中区块的编号;
Gi表示第i个区块的生成器;
Dij表示第i个区块的第j个判别器;
Xi表示分割后子图像的真实数据;
Zi表示符合正态分布的噪声向量;
Pr表示真实数据Xi的概率分布;
Pg表示生成数据Gi(Zi)的概率分布;
E表示数学期望;
表示对真实数据Xi的判别结果的期望值;
表示对生成数据Gi(Zi)的判别结果的期望值。
5.根据权利要求2所述的基于BlockGAN的图像生成和识别方法,其特征在于,步骤3)中,每个子图像模式分解后分别输入到各个区块中,进入到每个区块中并行的多个判别器,一个区块中并行的多个判别器的判别结果融合,得到对单一子图像的判别,多个区块的所有判别器的判别结果融合,得到对输入图像的判别,具体包括:
301)BlockGAN中多个区块并行的多个判别器的判别结果融合后输出的结果向量具体为:
V1×m=(v1 v2…vm)
其中:
V表示输出的结果向量;
vi表示第i个区块的判别结果,取值为0或1,0表明未识别出子图像中的物体,1表明识别出子图像中的物体;
302)为区块中的每个判别器设置相应的权值,权值矩阵如下:
其中:
Wm×n表示判别器阵列的权值矩阵;
wij表示第i个区块的第j个判别器的权值;
303)根据判别矩阵和权值矩阵,得每个区块的判别结果如下:
ri=diwi,i=1,2,…,m
其中:
di表示判别矩阵Dm×n的第i行向量;
wi表示权值矩阵Wm×n的第i行向量;
ri表示向量di与向量wi的点乘;
304)阈值向量T的设定:根据结果向量的定义,vi的取值为0或1,而公式ri=diwi中,di的取值为区间[0,1];权值向量wi的元素的和为1,因此算出来ri的值也是一个概率值,取值范围为区间[0,1],当与结果向量的数值0或1(取值为0或1)不符,则设置一个阈值向量T:
T=(t1,t2,…tm)
其中:
ti表示第i个区块判别结果的阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江传媒学院,未经浙江传媒学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010044383.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:通话场景的识别方法和装置
- 下一篇:游戏中虚拟载具的状态同步方法和装置
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序