[发明专利]一种基于条件嵌入预训练语言模型的图像标题生成方法有效

申请号：	202110292541.6	申请日：	2021-03-18
公开（公告）号：	CN113139575B	公开（公告）日：	2022-03-01
发明（设计）人：	张旻;林培捷;李鹏飞;姜明;汤景凡	申请（专利权）人：	杭州电子科技大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06V10/40;G06N3/04;G06N3/08;G06V10/774;G06V10/764
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于条件嵌入训练语言模型图像标题生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于条件嵌入预训练语言模型的图像标题生成方法，其特征在于包括以下步骤：

步骤(1)使用目标检测方法Faster RCNN对图像进行目标检测，并将检测结果作为构建图像的关键词集合，将关键词集合和特殊字符组成输入序列，输入序列通过词嵌入的方式进行输入，构建关键词嵌入网络KEN；

步骤(2)使用预训练的图像提取模型ResNet对图像进行特征提取，构建特征编码网络；对图像进行编码，将编码结果通过条件嵌入的方式进行输入，构建视觉嵌入网络VEN；

步骤(3)针对预训练语言模型，transformer中的LN层已有现成的、无条件的g和b，且g和b用于对特征施加增益和偏置操作时，都是固定长度的向量；通过VEN将图像编码为g',b'；

g',b'跟g,b具有相同的维度，将VEN的编码结果g',b'分别加到g和b上去，构建条件嵌入归一化层CELN；

步骤(4)将KEN和VEN的编码结果分别作为预训练语言模型的序列输入和条件嵌入；用CELN替换UNILM的transformer中所有的LN层，构建CE-UNILM模型；

步骤(5)对CE-UNILM模型进行训练，挑选最优训练模型；将图片输入训练好的CE-UNILM模型，输出对应的图像标题；

所述步骤(3)具体实现过程如下：

3-1计算特征x在LN层的归一化统计量均值μ和方差σ，特征x通过均值μ和方差σ，可以得到归一化后的特征值为x'，如公式(5)所示：

其中，ε是一个很小的小数，防止除0；

3-2在LN中需要一组参数来保证归一化操作不会破坏之前的信息，在LN中这组参数叫做增益g和偏置b，LN的输出如公式(6)所示；

f_LN(x')＝g☉x'+b (6)

合并公式(5)，(6)，LN层最终输出，如公式(7)所示；

3-3对于transformer来说，已经有现成的、无条件的g和b了，它们都是长度固定的向量；VEN将图像特征编码到跟g和b一样的维度，然后将两个编码结果g'和b'分别加到g和b上去如公式(8)(9)所示；

3-4通过CELN获得新特征为计算过程如公式(10)所示；

其中，μ和σ是分别是均值和方差；

步骤(4)所述具体实现过程如下：

4-1将KEN作为预训练语言模型UNILM的输入，VEN的结果作为预训练语言模型UNILM的条件输入，用CELN替换UNILM中transformer的所有的LN层；

4-2将步骤4-1中KEN、VEN以及加入了CELN的UNILM模型进行组合，构建CE-UNILM模型。

2.根据权利要求1所述的一种基于条件嵌入预训练语言模型的图像标题生成方法，其特征在于所述步骤(1)具体实现过程如下：

1-1使用在Visual Genome数据集上预训练的Faster RCNN对图像进行目标提取；Faster RCNN能够获得目标类别以及相应目标在图像中的区域；为了用于图像标题生成任务，取模型最终类别输出并得到关键词集合W＝{w₁,w₂,…,w_s}；其中，w_s是通过目标检测算法对图像提取的类别如公式(1)所示；

W＝Faster RCNN(I) (1)

1-2获取关键词集合W后，将W和三个特殊标记组合为输入序列S；三个特殊标记分别为：[CLS]、[SEP]和[STOP]；其中[CLS]放在第一个关键字之前，要在句子A之前加[CLS]标志；[SEP]用于分开两个输入句子，在句子A后面且句子B前面增加[SEP]标志；[STOP]放在句子结束，表示句子结束，在句子A后面加[STOP]标志；

1-3将步骤1-1中目标检测所获得的类别w_s进行编码，维度为768；若N为输入序列S的最终序列长度，则S的维度为768*N。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110292541.6/1.html，转载请声明来源钻瓜专利网。

上一篇：识别系统和识别方法
下一篇：一种基于视觉嵌入和条件归一化的图像描述方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于条件嵌入预训练语言模型的图像标题生成方法有效

专利文献下载