[发明专利]基于向量量化变分自编码器的医学影像分类模型及方法在审
| 申请号: | 202210901020.0 | 申请日: | 2022-07-28 |
| 公开(公告)号: | CN115100480A | 公开(公告)日: | 2022-09-23 |
| 发明(设计)人: | 储节磊;刘启德;余华;李天瑞;向导;游泽青;周图南 | 申请(专利权)人: | 西南交通大学;中国电子口岸数据中心成都分中心 |
| 主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/82;G06V10/774;G06N3/04;G06N3/08;G06T7/00;G16H50/20 |
| 代理公司: | 成都其知创新专利代理事务所(普通合伙) 51326 | 代理人: | 房立普 |
| 地址: | 610000*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 向量 量化 编码器 医学影像 分类 模型 方法 | ||
本发明公开了一种基于向量量化变分自编码器的医学影像分类模型及方法,模型包括预训练阶段和微调阶段;所述预训练阶段分为Encoder模块、特征增强模块、Decoder模块三个模块,Encoder模块用于提取图像特征,特征增强模块用于强化图像的特征,最后的Decoder模块用于进行图像的重构;所述微调阶段包括Encoder模块和特征增强模块;Encoder模块用于学习提取图像的特征;特征增强模块用于对学到的特征进行约束增强,该模块后连接一个全连接层,直接将输出的特征输入进去,直接输出分类的最终结果。本发明提出了全新VAE与自注意力机制结合的神经网络模型,既解决了VAE类模型分类任务效果差的问题,又解决了自注意力机制模型在小规模数据集上表现不好的问题。
技术领域
本发明涉及医学影像分类技术领域,尤其是一种基于向量量化变分自编码器的医学影像分类识别的模型及方法。
背景技术
VQ-VAE是一种生成模型,Encoder由三层卷积组成用于提取图像的特征,Decoder由三层反卷积组成用于重构图像。VQ-VAE模型最大的特点是中间的Embedding Space编码表结构,它在整个模型中充当了一个特征向量字典的角色,从Encoder中提取出的图像特征,与Embedding字典中的特征进行映射,找出字典中与原特征最相似的特征向量,并进行替换。将替换过后的特征向量输入到Decoder中进行图像重构。VQ-VAE的整体流程为:输入图像-经过Encoder之后得到Z_e(x)-Z_e(x)与编码表Embedding Space进行映射,通过最邻近搜索算法,寻找编码表中与Z_e(x)最相似的向量特征,然后用e去代替Z_e(x),得到Z_q(x)-将Z_q(x)输入到Decoder中,去进行图像的重构。然后进行loss的计算和反向传播优化模型。
VAE一类的模型大部分是用做进行图像生成任务的,既然可以生成高分辨率图像,那必然是学习到了非常丰富的图像特征。所以本发明的思路是提取经过Encoder之后的潜层特征去进行分类的下游任务。但是经过实验发现,使用VAE一类的模型去进行分类任务效果并不理想。其原因是,VAE模型的目的是重构图像,为了更好的完成这一任务,他就需要去学习图像的“共性”特征,从而抑制图像的“特性”特征。而分类任务的需求正好与此相反,它需要模型去更多的学习图像的“特性”特征。这是VAE大类模型去完成分类下游任务效果不好的一大原因。
Vision Transformer模型(Vit)中运用到自注意力机制。Vit模型是将NLP领域中的Transformer应用到了计算视觉领域中,并且取得了非常惊人的效果。模型强制输入图像的大小为224*224分辨率,首先模型将图像切成16*16大小的9个小块,每个小块当作一个patch,通过线性层将这9个patch编译成9个特征,然后拼接一个形状一样的,通过初始化得到的特征(Class Token)用于后续的分类任务。接下来,因为将图片分块,它们原始对于图像中的位置信息没有了,所以研究者加了一个可以学习的位置特征(Position Embedding)在原特征上,与Class Token不同,Position Embedding是直接加到原特征向量上,相加之后特征维度没有变化。接下来把加上位置编码的这10个特征向量(9个图片块对应的特征加1个分类的特征)送入transformer中,transformer可以理解为里面所做的事情就是让输入的10个特征互相学习互相的信息,然后输出10个学习完互相信息的特征。最后取出第0位的Class Token进行分类任务。
Vit相比传统的CNN卷积模型,其模型规模大、参数多、计算量大,所以需要从大规模的数据集上进行预训练才能有较好的结果。而医学影像数据集大都规模较小,例如有标记的新冠肺炎图像数据集成本高,数量少,规模小,所以单纯的用Vit模型去进行新冠诊断任务效果并不理想。
发明内容
本发明的目的是解决提取VAE大类模型潜层特征来进行分类等下游任务效果差的问题,以及解决自注意力机制模型在小规模数据上表现不好的问题。对此,本发明提供了一种基于向量量化变分自编码器的医学影像分类模型及方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学;中国电子口岸数据中心成都分中心,未经西南交通大学;中国电子口岸数据中心成都分中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210901020.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无交叉污染的用于液体释放的双阀柱结构
- 下一篇:单芯片封装结构





