[发明专利]基于ViT框架的多类目岩矿快速分类方法、设备及存储介质在审
申请号: | 202111409265.3 | 申请日: | 2021-11-25 |
公开(公告)号: | CN114219988A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 林伟华;刘福江;黎卓武;郭艳;李鹏;周季;唐家玉;孙煜文 | 申请(专利权)人: | 中国地质大学(武汉);武汉图歌信息技术有限责任公司 |
主分类号: | G06V20/00 | 分类号: | G06V20/00;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 武汉红观专利代理事务所(普通合伙) 42247 | 代理人: | 曾国辉 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 vit 框架 类目 快速 分类 方法 设备 存储 介质 | ||
1.一种基于ViT框架的多类目岩矿快速分类方法,其特征在于,建立自然岩矿图像识别模型进行多类目岩矿快速分类,所述方法包括以下步骤:
S1,采集岩矿图像数据集样本输入至自然岩矿图像识别模型的预处理模块,进行特征预提取和抑制过拟合处理,所述数据集样本包括图像数据以及与其对应的类别标签,继续执行步骤S2;
S2,将经过预处理模块的数据集样本输入至自然岩矿图像识别模型的数据处理模块中进行参数训练和Token提取,继续执行步骤S3;
S3,自然岩矿图像识别模型的结果处理模块根据所述参数训练和Token提取结果进行Token分离和类别映射并输出分类结果,完成对所述自然岩矿图像识别模型的训练;继续执行步骤S4;
S4,获取待识别图像数据并输入至所述自然岩矿图像识别模型,完成对所述待识别图像数据的分类并输出结果。
2.如权利要求1所述的一种基于ViT框架的多类目岩矿快速分类方法,其特征在于,所述自然岩矿图像识别模型中,
所述预处理模块包括:顺次连接的输入层、图像统一格式预处理模块、迁移模型、ECTG模块、Dropout层;
所述数据处理模块包括:顺次连接的参数正则化层、Mlti-Head Attention模块、Linear层、ECTG模块、Linear+Dropout层、参数正则化层、Linear+GeLU层、Dropout+Linear层、Dropout+Linear层、STFE模块、Linear层;
所述结果处理模块包括:顺次连接的参数正则化层、ECTG模块、RCLinear+Softmax层。
3.如权利要求2所述的一种基于ViT框架的多类目岩矿快速分类方法,其特征在于,所述步骤S1具体包括:
S1-1,所述数据集样本进入自然岩矿图像识别模型的输入层后,所述图像统一格式预处理模块对所述图像数据进行统一尺寸和色彩空间的处理,并输入到迁移模型进行特征预提取,继续执行步骤S1-2;
S1-2,所述迁移模型的输出映射层输出所述图像数据的特征,输入至ECTG模块进行类标志Token提取,通过Dropout层抑制过拟合,输出与图像数据对应的标志Token,记为TokenT;
所述ECTG模块,包括顺次连接的Linear层、Dropout层以及Linear层,第一层Linear层用于映射所述特征,使用GeLU函数激活,再通过Dropout层抑制过拟合,第二层Linear层将所述特征映射为Patch Number倍编码长度后输出,其中Patches Number表示通过预设分割Patches大小计算得出的实际Patches数目。
4.如权利要求3所述的一种基于ViT框架的多类目岩矿快速分类方法,其特征在于,所述Token T具体包括:
所述Token为通过ECTG模块将n个Patches的特征融合到第0个Patch中,生成与Patch同等大小的Token T:
其中,F为特征值序列矩阵,fi为矩阵F的第i个向量,W为训练后的权重参数矩阵,Wj为矩阵W的第j个向量,B为偏置参数矩阵,Bi为矩阵B的第i个向量,dim为Patch的尺寸。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉);武汉图歌信息技术有限责任公司,未经中国地质大学(武汉);武汉图歌信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111409265.3/1.html,转载请声明来源钻瓜专利网。