[发明专利]一种基于视觉嵌入和条件归一化的图像描述方法有效
申请号: | 202110292545.4 | 申请日: | 2021-03-18 |
公开(公告)号: | CN113139378B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 张旻;李鹏飞;林培捷;汤景凡;姜明 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06V10/40;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视觉 嵌入 条件 归一化 图像 描述 方法 | ||
本发明公开了一种基于视觉嵌入和条件归一化的图像描述方法。本发明提出了一种基于transformer模型的网络,被称为V‑CLTM。在transformer模型的输入端,使用关键词嵌入模块(KEM)提取图像中的目标类别作为关键词,结合文本序列作为输入序列;使用视觉嵌入模块(VEM)用来提取图像特征,并将特征编码成transformer的归一化层能接受维度作为条件输入;同时,本发明提出的条件归一化的LN层是一种通过视觉嵌入来调节模型进行特征选择的有效机制,将条件归一化LN应用于transformer上。结果表明,这种方法具有更好的鲁棒性和自适应能力。
技术领域
本发明涉及图像字幕生成方法,具体来讲是一种基于视觉嵌入和条件归一化的图像描述方法,属于图像字幕生成技术领域。
背景技术
图像描述是计算机视觉和自然语言处理的综合性任务,这个任务是具有挑战性的。它要准确的找到图像中显著性的物体,物体的属性,物体之间的关系以及所处场景,并使用自然语言正确的进行描述。得益于深度学习的快速发展,图像描述任务取得了优秀的成果,在一些评价指标上甚至超过了人类。
近年来,transformer模型使用全注意力机制的结构代替了LSTM应用在翻译任务中。针对图像-文本,语音-文本等研究也越来越多,具体应用上包括了图像字幕,视频字幕,图像问答,视频问答等。相对于传统编码-解码过程,transformer模型在这些任务上的成果是优秀的。该模型的输入序列包括了来自文本的单词、图像的感兴趣区域以及消除不同模态数据的特定元素。在输入操作之前,通过注意力机制将视觉-语言进行聚合、对齐是常见的操作。但是,最终任务需要的视觉信息和文本信息应该在模型学习整个过程起作用,而不是仅依靠输入序列的多模态融合信息。CBN(Conditional Batch Normalization)中认为语言能够更好的帮助图像模型更好的识别图像。CBN以LSTM提取的自然语言特征作为条件,预测BN(Batch Normalization)层参数的增量,使得不同的输入都有相对应的归一化参数。既然自然语言特征可以作为条件,用于预测BN参数的变化,那么图片的类别信息自然也可以作为条件来预测BN层的参数。受此启发,本发明认为图像作为条件能够帮助transformer模型更好的生成描述。在transformer模型中,LN(layer Normalization)层取代了BN层,因此需要将文本或图片信息嵌入到LN层中,通过这种操作使得transformer模型面对生成文本任务时,能更好的参考条件信息进行特征选择。另外,这种条件嵌入的方法需要为transformer提供合适的信息。因此,本发明在transformer编解码过程中选取了易于改变的LN层来接受参考条件。使用图像预训练模型提取图像信息,并将图像信息经过不同的编码过程编码为transformer能够接受的维度。
发明内容
本发明的目的是针对现有技术的不足,提供一种通过视觉嵌入来调节transformer模型训练过程中进行特征选择的有效机制,以解决视觉-语言模型在训练过程中,不能时刻借鉴图像信息的问题。具体来说,在transformer模型的输入端,构建关键词嵌入模块(KEM),KEM使用目标检测的方法对图像进行目标检测,将结果组合成序列,和训练集中图像字幕组合成最终序列组合,通过输入端进行输入。构建视觉嵌入模块(VEM)对图像特征进行提取,将图像进行编码,通过条件嵌入的方式进行输入。对于transformer中的LN层已经有现成的、无条件的g(gain)和(bias)b了,它们用于对特征施加增益和偏置操作,都是固定长度的向量。通过VEM对图像进行编码为g′,b′作为条件输入,g′,b′跟g,b具有相同的维度,然后将结果分别加到g和b上去。从含义上讲可以解释为:根据g′,b′的信息,transformer模型在针对图像字幕任务生成过程中,针对性学习和图像特征相关的信息,进而调节权重。结果表明,这种方法具有更好的鲁棒性和自适应能力。
本发明有益效果如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110292545.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于条件嵌入预训练语言模型的图像标题生成方法
- 下一篇:厨房用喷雾装置