[发明专利]基于语义原型树的端到端图像字幕生成方法在审
申请号: | 202210683376.1 | 申请日: | 2022-06-16 |
公开(公告)号: | CN115062174A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 高联丽;朱晋宽;顾嘉扬;曾鹏鹏;宋井宽 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/55 | 分类号: | G06F16/55;G06F16/58;G06K9/62 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 朱丹 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 原型 端到端 图像 字幕 生成 方法 | ||
1.基于语义原型树的端到端图像字幕生成方法,其特征在于,包括以下步骤:
S1:在设计的端到端方法中,构建一个可训练的视觉编码器,基于当前给定的原始图片信息,能够提取出图像的栅格信息,作为后续用于推理的视觉信息的基础;
S2:为了能让不同粒度的语义信息来辅助图像描述的生成,构建了一个用于提取语义原型树的提取器TSP,该模块的输入是词库里的所有词,模块利用分词算法和分层聚类算法,输出树结构的原型语义词;
S3:在S2的基础上,基于交叉注意力机制,渐进地融合语义信息与栅格特征,进行跨模态与跨空间域的对象表征学习,得到语义强化的视觉表征向量;
S4:采用基于Transformer结构的解码器,将改进的栅格特征送入其中,得到模型预测的描述结果,并计算预测损失。
2.根据权利要求1所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述S1具体包括:
首先,将输入图像I∈RHxWx3分割为B个不相交的补丁区域,将局部区域记为I∈RPxPx3;其中{H,W}和{P,P}分别表示输入图像和补丁区域的大小;根据以上信息可以得到,补丁区域的数据N=(H×W)/P2,同时N还要作为视频序列的长度信息输入到视觉编码器中;然后将这些补丁进行平铺操作并输入到一个可训练的嵌入层得到补丁嵌入向量;
然后,为了保留位置信息,位置嵌入也被融合到补丁嵌入向量中,补丁嵌入向量经过4个编码阶段,每个阶段包含一个补丁特征融合层和多个相邻的编码器核心单元,用于获得分层次的视觉表征;
最终,将视觉编码器最后一个阶段输出的特征作为网格特征,用G来表示,并将其输入到下一个模块中。
3.根据权利要求2所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述补丁特征融合层通过将2x2个补丁区域特征进行拼接,将局部特征的总规模缩小到原来的四分之一;每个核心单元由基于移位窗口的多头自注意力模块、多层感知器模块、GELU非线性层和归一化模块组成,多个核心单元能在保持原本不重叠窗口有效计算的同时引入跨窗口的连接,显著增强了整体模型的表征能力。
4.根据权利要求1所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述S2中树结构的语义原型信息的提取器TSP中包含两个步骤,分别是语义概念信息初始化操作和分层聚类操作;
TSP首先会对词库中词性为名词、形容词和动词的单词进行筛选,并用其初始化语义概念信息,记作X;随后,根据一个简而有效的分层聚类算法,得到一系列树结构的语义原型向量信息。
5.根据权利要求4所述的基于语义原型树的端到端图像字幕生成方法,其特征在于,所述分层聚类算法,如下表示:
其中,给定概念词的词嵌入表示X,分层数目L,每层所包含的原型词数目F1,...,FL;表示第l层、第f个聚类词,Fl表示第l层所包含的原型词数目;
首先,使用聚类算法(K-Means、gmm)在X上进行聚类,完成第一层的语义原型向量信息Z1,其中每一个原型向量都代表着一些相似语义的概念词的语义中心;在初始化第一层原型信息之后,TSP迭代地生成剩下每一层的、代表着更概括的语义层次的原型语义信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210683376.1/1.html,转载请声明来源钻瓜专利网。