[发明专利]一种基于跨模态对比学习的医学报告生成方法在审
申请号: | 202210347478.6 | 申请日: | 2022-04-01 |
公开(公告)号: | CN114743630A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 俞俊;姜威;朱素果 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G16H15/00 | 分类号: | G16H15/00;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 跨模态 对比 学习 医学 报告 生成 方法 | ||
1.一种基于跨模态对比学习的医学报告生成方法,其特征在于包括如下步骤:
步骤(1)、使用改进的ViT模型,首先将图像切成图像块,然后使用可训练的线性投影将图像块映射到特定的特征空间中,同时添加位置embedding以保留位置信息,再输入标准的Transformer Encoder来提取图像特征;
步骤(2)、使用预训练好的Clinical BERT对文本进行编码并通过全连接层将其映射到特征空间中,得到文本特征;
步骤(3)、将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征进行双塔结构的跨模态对比学习进行对齐操作;
步骤(4)、将步骤(1)中得到的图像特征和步骤(2)中得到的文本特征输入到一个将Transformer和LSTM优势互补的框架Decoder-L,得到每个时间步的单词概率分布;
步骤(5)、将步骤(4)中输入图像特征得到的单词概率分布Ⅰ和输入文本特征得到的单词概率分布Ⅱ使用单塔结构的跨模态对比学习进行对齐。
2.根据权利要求1所述的一种基于跨模态对比学习的医学报告生成方法,其特征在于步骤(1)所述的使用改进的ViT模型提取图像特征,具体如下:
对于图像使用ViT模型提取图像特征hI;
首先,将图像x拉平成二维的图像,并切成图像块其中是图像块的个数、(P,P)是图像块的大小;由于使用标准的TransformerEncoder,因此需要将图块拉平,使用可训练的线性投影映射到可以输入Transformer Encoder的大小,并添加位置embedding以保留位置信息Epos,具体公式如下:
z′l=MSA(LN(zl-1))+zl-1,l=1...L (公式2)
zl=MLP(LN(z′l))+z′l,l=1...L (公式3)
hI=zL (公式4)
其中,改进的ViT模型是将原ViT模型的最后一层分类层去掉,得到图像特征hI;xclass是一个特殊的用来整合整体信息的变量;是第i个的图像块;E是对图像块进行编码的向量;Epos是位置信息,对编码后的图像特征再加上位置编码;LN是Layer Normalization,层规范化;MSA是Transformer中的多头注意力;MLP是多层感知机;z是公式过程中的临时变量;hI是提取的图像特征;z′l和zl表示中间变量,L表示层数。
3.根据权利要求2所述的一种基于跨模态对比学习的医学报告生成方法,其特征在于步骤(2)所述的使用预训练好的Clinical BERT对文本进行编码并通过全连接层将其映射到特征空间中,得到文本特征,具体如下:
对于文本其中N是文本的长度,使用预训练好的ClinicalBERT编码并通过全连接层将其映射到特征空间中,得到文本特征hW,具体公式如下:
hW=MLP(BERT(y′1,y′2,…,y′N)) (公式5)
其中,BERT是预训练好的Clinical BERT,MLP是多层感知机。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210347478.6/1.html,转载请声明来源钻瓜专利网。