[发明专利]一种基于跨模态对比学习的医学报告生成方法在审
申请号: | 202210347478.6 | 申请日: | 2022-04-01 |
公开(公告)号: | CN114743630A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 俞俊;姜威;朱素果 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G16H15/00 | 分类号: | G16H15/00;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 跨模态 对比 学习 医学 报告 生成 方法 | ||
本发明公开了一种基于跨模态对比学习的医学报告生成方法。本发明步骤如下:1、使用ViT模型将图像切成图像块,然后使用可训练的线性投影将图像块映射到特定的特征空间中,同时添加位置保留位置信息,再输入标准的TransformerEncoder来提取图像特征;2、使用预训练好的ClinicalBERT对文本进行编码并通过全连接层将其映射到特征空间中,得到文本特征;3、将得到的图像特征和文本特征进行双塔结构的跨模态对比学习进行对齐操作;4、将得到的图像特征和文本特征输入到一个将Transformer和LSTM优势互补的框架Decoder‑L,得到每个时间步的单词概率分布;5、将得到的两个单词概率分布使用单塔结构的跨模态对比学习进行对齐。本发明将Transformer和LSTM进行优势互补,更好的捕捉句子生成的长期和短期依赖。
技术领域
本发明涉及医学报告生成,尤其涉及一种基于跨模态对比学习的医学报告生成方法。
背景技术
胸片是临床上最常用的影像学检查方法之一。然而,解释胸片并撰写报告是繁琐的,这为放射科医生增加了大量的工作量。因此,使用机器学习技术的自动医学报告生成,有望减轻医生的负担并加快临床的工作流程。从根本上说,这可以看作是将视觉输入转换为文本输出,即一般所说的Image Caption任务。然而,将其转换到医学报告中并非易事,因为我们需要了解其复杂的结构和多样性,以及建模由放射科医生的不同专业知识和经验引起的不确定性。
大多数现有的成功的医学报告生成模型遵循标准的Image Caption方法,并采用encoder-decoder框架。但是直接将Image Caption的方法应用到医学报告生成是存在一些问题的,医学报告生成有其固有的一些难题:1)提取图像特征难:在Image Caption任务中,图像中主要是文本中所描述的事件,文本中也是图像中主要发生的事件,因此在ImageCaption任务中有效的图像特征在图像编码后容易得到。但是在医学报告生成任务中,想要准确的提取图像的特征,需要医生的专业知识以及经验,而这种专业知识和经验是很难通过建模得到的,这也是当前大多数医学报告生成模型效果差的主要原因。2)超长序列:Image Caption任务中文本往往是一个短句,只描述图像中主体的部分,而医学报告生成任务中的文本是一个长段,具有多句话,并且每个句子都围绕着一个具体的医学观察,即前后两个句子之间不存在关联。对于Image Caption任务中常用的LSTM,由于梯度消失或者梯度爆炸,很难对如此长的序列进行建模。最近有医学报告生成模型使用层次化LSTM,来解决这个问题,但是并不能很有效的捕捉句子生成的长期依赖。现在越来越多的模型利用Transformer来更好的捕捉句子生成的长期依赖,但是对于捕捉句子生成的短期依赖不如LSTM。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210347478.6/2.html,转载请声明来源钻瓜专利网。