[发明专利]一种基于条件嵌入预训练语言模型的图像标题生成方法有效

专利信息
申请号: 202110292541.6 申请日: 2021-03-18
公开(公告)号: CN113139575B 公开(公告)日: 2022-03-01
发明(设计)人: 张旻;林培捷;李鹏飞;姜明;汤景凡 申请(专利权)人: 杭州电子科技大学
主分类号: G06K9/62 分类号: G06K9/62;G06V10/40;G06N3/04;G06N3/08;G06V10/774;G06V10/764
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 条件 嵌入 训练 语言 模型 图像 标题 生成 方法
【权利要求书】:

1.一种基于条件嵌入预训练语言模型的图像标题生成方法,其特征在于包括以下步骤:

步骤(1)使用目标检测方法Faster RCNN对图像进行目标检测,并将检测结果作为构建图像的关键词集合,将关键词集合和特殊字符组成输入序列,输入序列通过词嵌入的方式进行输入,构建关键词嵌入网络KEN;

步骤(2)使用预训练的图像提取模型ResNet对图像进行特征提取,构建特征编码网络;对图像进行编码,将编码结果通过条件嵌入的方式进行输入,构建视觉嵌入网络VEN;

步骤(3)针对预训练语言模型,transformer中的LN层已有现成的、无条件的g和b,且g和b用于对特征施加增益和偏置操作时,都是固定长度的向量;通过VEN将图像编码为g',b';

g',b'跟g,b具有相同的维度,将VEN的编码结果g',b'分别加到g和b上去,构建条件嵌入归一化层CELN;

步骤(4)将KEN和VEN的编码结果分别作为预训练语言模型的序列输入和条件嵌入;用CELN替换UNILM的transformer中所有的LN层,构建CE-UNILM模型;

步骤(5)对CE-UNILM模型进行训练,挑选最优训练模型;将图片输入训练好的CE-UNILM模型,输出对应的图像标题;

所述步骤(3)具体实现过程如下:

3-1计算特征x在LN层的归一化统计量均值μ和方差σ,特征x通过均值μ和方差σ,可以得到归一化后的特征值为x',如公式(5)所示:

其中,ε是一个很小的小数,防止除0;

3-2在LN中需要一组参数来保证归一化操作不会破坏之前的信息,在LN中这组参数叫做增益g和偏置b,LN的输出如公式(6)所示;

fLN(x')=g☉x'+b (6)

合并公式(5),(6),LN层最终输出,如公式(7)所示;

3-3对于transformer来说,已经有现成的、无条件的g和b了,它们都是长度固定的向量;VEN将图像特征编码到跟g和b一样的维度,然后将两个编码结果g'和b'分别加到g和b上去如公式(8)(9)所示;

3-4通过CELN获得新特征为计算过程如公式(10)所示;

其中,μ和σ是分别是均值和方差;

步骤(4)所述具体实现过程如下:

4-1将KEN作为预训练语言模型UNILM的输入,VEN的结果作为预训练语言模型UNILM的条件输入,用CELN替换UNILM中transformer的所有的LN层;

4-2将步骤4-1中KEN、VEN以及加入了CELN的UNILM模型进行组合,构建CE-UNILM模型。

2.根据权利要求1所述的一种基于条件嵌入预训练语言模型的图像标题生成方法,其特征在于所述步骤(1)具体实现过程如下:

1-1使用在Visual Genome数据集上预训练的Faster RCNN对图像进行目标提取;Faster RCNN能够获得目标类别以及相应目标在图像中的区域;为了用于图像标题生成任务,取模型最终类别输出并得到关键词集合W={w1,w2,…,ws};其中,ws是通过目标检测算法对图像提取的类别如公式(1)所示;

W=Faster RCNN(I) (1)

1-2获取关键词集合W后,将W和三个特殊标记组合为输入序列S;三个特殊标记分别为:[CLS]、[SEP]和[STOP];其中[CLS]放在第一个关键字之前,要在句子A之前加[CLS]标志;[SEP]用于分开两个输入句子,在句子A后面且句子B前面增加[SEP]标志;[STOP]放在句子结束,表示句子结束,在句子A后面加[STOP]标志;

1-3将步骤1-1中目标检测所获得的类别ws进行编码,维度为768;若N为输入序列S的最终序列长度,则S的维度为768*N。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110292541.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top