[发明专利]一种基于对抗生成神经网络的单色釉瓷器自动识别方法在审
申请号: | 202110846936.6 | 申请日: | 2021-07-26 |
公开(公告)号: | CN113553956A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 蔡花菲;徐艳芳;胡振生 | 申请(专利权)人: | 长沙理工大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市能闻知识产权代理事务所(普通合伙) 44717 | 代理人: | 熊旺 |
地址: | 410000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 生成 神经网络 色釉 瓷器 自动识别 方法 | ||
1.一种基于对抗生成神经网络的单色釉瓷器自动识别方法,其特征在于:首先,进行单色釉瓷器图片收集,实现图像数据预处理和数据集构建;然后,通过条件深度卷积生成对抗网络模型的构建和训练,获取其中判别器对于单色釉瓷器相关的关键鉴别性特征参数;之后,基于判别器基础上,构建结合Focal Loss损失函数的釉色分类器,并在构建的数据集上进行训练;最后,使用测试数据集对模型进行测试得到釉色识别结果,包括以下步骤:
S1,图像数据预处理和数据集构建;
S2,条件深度卷积生成对抗网络模型的构建和训练;
S3,基于CDCGAN的单色釉瓷器图像分类模型构建和训练;
S4,输入新的测试集中的单色釉瓷器图片,输出对应的釉色预测类别。
2.根据权利要求1所述的单色釉瓷器自动识别方法,其特征在于:所述S1具体为,对收集到的单色釉瓷器图像进行预处理操作,收集真实单色釉瓷器图片,所述单色釉瓷器的类型为碟、盘、瓶,然后分别做好标签标注并统一将维度处理为256×256,之后,使用完全随机的方式按照7∶2∶1的比例进行划分,最后构建数据集,所述数据集分为训练集、验证集及测试集。
3.根据权利要求1所述的单色釉瓷器自动识别方法,其特征在于:所述S2具体为,条件深度卷积生成对抗网络模型的构建和训练,构建条件深度卷积生成对抗神经网络模型,简称CDCGAN,构建方法和流程如图2所示,将S1训练集的图像输入,进行预训练,当整个模型的损失函数Lglaze收敛至稳定状态时,完成模型训练。
4.根据权利要求3所述的单色釉瓷器自动识别方法,其特征在于:所述S2具体训练过程为,在生成器网络中输入为100维噪声数据向量z和94维釉色标签数据向量y;经过两层全连阶层及维度转换得到(28,28,128)三维张量,之后经过三层转置卷积层后输出(256,256,3)三维张量,代表一个生成的单色釉图像尺寸样本,同时为了增强釉色标签数据在训练中的引导作用,网络模型中每一层的输入张量都要在其最后一维拼接标签数据,在判别器模型中,输入为一张(256,256,3)的单色釉瓷器样本数据,经过卷积层转换之后得到(28,28,128)的三维矩阵,将三维张量展开,通过两个全连接层后,输出1维的结果,此处判别器不需要拼接标签数据,纯粹从原始图像中学习数据特征;
在模型训练过程中,生成器D的的目标是要生成能够以假乱真的单色釉瓷样本数据,使得判别器难以判断真假,即生成器D输出的图像数据样本通过判别器G后的结果要接近真实单色釉瓷器样本,具体判断结果的数值表现为接近1;而判别器G的目标则是能不断提高够辨出真假的能力,即在对单色釉瓷器的真实样本的判断结果结果接近1,即表示判断出真实存在,对于生成器D生成的图像数据样本接近0,即表示判断出虚假构造;
其中生成器G的目标函数定义为:
其中其中E(·)计算期望值,x代表真实单色釉瓷器图片样本,z表示随机生成的噪声数据,c为限制条件,此处为釉色标签,表示随机噪声结合限制条件c输入生成器产生的生成样本,输入判别器网络D判断其为真实数据的概率,
判别器D的目标函数定义为:
其中表示将真实样本x与限制条件c输入判别器网络D判断其为真实数据的概率,
整个模型的损失函数为:
训练过程中,采用Adam优化器优化损失函数,同时为了避免梯度消失问题的出现,每更新N(N>1)次生成器之后更新一次判别器,减缓判别器优化迭代过程,保持生成器与判别器能够持续不断对抗平衡学习,训练迭代到最佳效果后,保存整个模型架构及参数,即可得到单色釉瓷器的关键鉴别性相关特征参数。
5.根据权利要求1所述的单色釉瓷器自动识别方法,其特征在于:所述S3具体为,构建基于S2得到的预训练模型的单色釉瓷器图像分类模型,在S1单色釉瓷器训练集及验证集进行模型训练。
6.根据权利要求5所述的单色釉瓷器自动识别方法,其特征在于:所述S3具体为构建及训练过程为,
S3.1,加载S2中保存的模型架构及参数,将其中的判别器部分去除最后一层提取出来并保存为M;
S3.2,加载M并在其后添加一个全连阶层,即构成图像分类模型,输出为94维的向量z={z1,z2,z3,...,z94},输入为(256,256,3)三维张量,即单色釉瓷器样本图像;
S3.3,输出向量z通过Softmax分类器得到各类别概率值向量p={p1,p2,p3,...,p94};模型的预测输出为最大概率对应的类别。
其中概率值pi的计算如下式:
其中k为类别数量,此处为94种单色釉瓷器的釉色类别;
由于构建的数据集存在样本不均衡且类别较多问题,在分类预测过程中,正负样本比例失衡,因此在训练过程中采用Focal Loss(FL)损失函数,解决数据失衡导致的模型训练困难的问题,Focal Loss在标准交叉熵损失函数的基础上进行改进,通过调节易分类样本和难分类样本的权重,控制不同样本对训练损失的贡献程度来解决样本失衡问题,提高模型的识别准确率,其定义如下:
其中k表示标签类别的个数,这里取值为94,γ用于减少模型已经易于分类的类别样本对损失函数对影响,相当于惩罚项;αi代表是各类别数据对损失函数的权重值,用于调节正负样本的比例,取值范围在[0,1]之间,其定义如下:
pit是不同类别的分类概率,定义如下,其中yi是数据样本i真实标签:
模型训练批次样本大小的大小设置为64,初始学习率为5×10-5,模型采用Adam优化器,其中β1=0.9,β2=0.9999,在模型训练的初始阶段使用warming-up策略预热学习率,并在模型效果相对稳定的时候使用了学习率衰减策略以防止过拟合等问题的发生。当损失降低到稳定状态时,完成模型训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110846936.6/1.html,转载请声明来源钻瓜专利网。