[发明专利]基于语义原型树的端到端图像字幕生成方法在审
申请号: | 202210683376.1 | 申请日: | 2022-06-16 |
公开(公告)号: | CN115062174A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 高联丽;朱晋宽;顾嘉扬;曾鹏鹏;宋井宽 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/55 | 分类号: | G06F16/55;G06F16/58;G06K9/62 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 朱丹 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 原型 端到端 图像 字幕 生成 方法 | ||
本发明公开了基于语义原型树的端到端图像字幕生成方法,涉及跨模态信息理解技术领域,解决了传统方法中特征所处领域与下游任务领域有所割裂的问题,以及得到的语义概念词与图像内容无关导致生成的描述不准确的问题,包在设计的端到端方法中,构建一个可训练的视觉编码器,基于当前给定的原始图片信息,能够提取出图像的栅格信息,构建提取器TSP,该模块的输入是词库里的所有词,模块利用分词算法和分层聚类算法,输出树结构的原型语义词基于交叉注意力机制,渐进地融合语义信息与栅格特征,进行跨模态与跨空间域的对象表征学习,得到语义强化的视觉表征向量将改进的栅格特征送入其中,得到模型预测的描述结果,并计算预测损失。
技术领域
本发明涉及跨模态信息理解技术领域,更具体的是涉及基于语义原型树的端到端图像字幕生成方法。
背景技术
近年来,随着深度神经网络技术的快速发展,和图像、文本等数据的爆炸式增长,图像认知、文本理解等单模态技术已经日趋成熟,并被广泛应用于各个领域。但是,图像字幕生成技术由于身处跨模态领域,往往存在视频信息与文本信息密度不对等的问题,导致即便图像信息提取模块能维持较高的认知水平,文本生成模块却缺乏与之对应水准的理解能力,导致后者无法充分利用图像特征生成准确无误的解释性文本,从而未能得到广泛的支持和应用。
其中,图像描述生成任务是一种功能性较强、应用前景广泛的图像多模态技术,它利用用户给出的一张图片,在线地对图片内容进行表征学习和逻辑推理,通过进一步完成文本和视觉模态信息之间的语义对齐,最终给出一个合适的文本描述。由于图像描述生成技术满足基于语言的人机交互范式,因此该研究有助于基于内容的图像信息检索、情景分析和视觉障碍辅助等领域的发展。
学习图像字幕生成技术的主流解决方案是一种两阶段模型,它旨在用预训练的视觉编码器来解析图像特征,然后通过这些提取好的离线图像特征,利用注意力机制来推理出描述词汇。然而,这种传统的两阶段模型存在两个问题。首先,这种离线的图像特征的提取过程耗时较长,导致整体模型难以应用到实时的在线场景中,以及,这种在别的预训练任务上训练的预训练模型提取的图像特征与下游的跨模态任务所需要的图像特征之间存在差异,导致基于不合适的图像特征推理得到的图像描述也是不贴切的;其次,这些方法局限于探索图像与文本信息之间的联系,而未考虑先验性的知识概念信息,这与人类认知过程的本质并不一致。具体地,当一个人类要求对图像进行概括性描述时,人类会先从大脑中挑出一部分符合这个图像大致内容的文本信息,缩小了生成描述时的检索空间,并将这些检索的词语作为推理过程中的指导。然而目前的图像描述生成方法对这一论点的理解仅停留在生硬而随机的概念选取上,并不能系统、高效地从词库中检索出对应的词语,导致模型待搜索的解空间仍停留在一个较大的范围。
发明内容
本发明的目的在于:提供一种基于语义原型树的端到端图像字幕生成方法,解决了传统方法中特征所处领域与下游任务领域有所割裂的问题,以及得到的语义概念词与图像内容无关导致生成的描述不准确的问题。
本发明为了实现上述目的具体采用以下技术方案:
基于语义原型树的端到端图像字幕生成方法,包括以下步骤:
S1:在设计的端到端方法中,构建一个可训练的视觉编码器,基于当前给定的原始图片信息,能够提取出图像的栅格信息,作为后续用于推理的视觉信息的基础;
S2:为了能让不同粒度的语义信息来辅助图像描述的生成,构建了一个用于提取语义原型树的提取器TSP,该模块的输入是词库里的所有词,模块利用分词算法和分层聚类算法,输出树结构的原型语义词;
S3:在S2的基础上,基于交叉注意力机制,渐进地融合语义信息与栅格特征,进行跨模态与跨空间域的对象表征学习,得到语义强化的视觉表征向量;
S4:采用基于Transformer结构的解码器,将改进的栅格特征送入其中,得到模型预测的描述结果,并计算预测损失。
作为一种可选的技术方案,所述S1具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210683376.1/2.html,转载请声明来源钻瓜专利网。