[发明专利]一种基于条件嵌入预训练语言模型的图像标题生成方法有效

申请号：	202110292541.6	申请日：	2021-03-18
公开（公告）号：	CN113139575B	公开（公告）日：	2022-03-01
发明（设计）人：	张旻;林培捷;李鹏飞;姜明;汤景凡	申请（专利权）人：	杭州电子科技大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06V10/40;G06N3/04;G06N3/08;G06V10/774;G06V10/764
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于条件嵌入训练语言模型图像标题生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于条件嵌入预训练语言模型的图像标题生成方法。本发明提出了一种基于预训练语言模型的网络，被称为CE‑UNILM。在预训练语言模型UNILM的输入端，构建KEN，KEN使用目标检测的方法对图像进行目标检测，并将结果作为关键文本信息，通过关键词嵌入的方式进行输入。通过构建VEN对图像特征进行提取，并将图像进行编码，通过条件嵌入的方式进行输入。同时，本发明提出的CELN，CELN是一种通过视觉嵌入来调节预训练语言模型进行特征选择的有效机制，将CELN应用于统一预训练语言模型中的transformer上。结果表明，这种方法具有更好的鲁棒性和自适应能力。

技术领域

本发明属于图像描述技术领域，涉及图像标题生成方法，具体是一种基于条件嵌入预训练语言模型的图像标题生成方法。

背景技术

大规模预训练语言模型使文本理解任务和文本生成任务的效果得到大幅度提高，这也改变了研究人员的研究方式，使得针对预训练语言模型进行调整进行下游任务成为主流方法。针对图像-文本，语音-文本等的研究也越来越多，具体应用上包括了图像字幕，视频字幕，图像问答，视频问答等。

相对于传统编码-解码的任务过程，预训练语言模型在自然语言处理任务上的成果是优秀的。这是因为文章、语句天生就是蕴含着语法、语义的训练资源,预训练语言模型在海量的语料数据中学习,它能够基于足够多的上下文文本表征来预测目标的语义信息。通常而言，预训练语言模型的输入包括了来自文本的单词、图像的感兴趣区域(IOU)以及消除不同模态数据的特定元素。在输入操作之前，通过注意力机制将视觉-语言进行聚合、对齐是常见的操作。但是，下游任务的视觉信息和文本信息应该在模型学习整个过程起作用，而不是仅依靠输入的多模态融合信息。CBN中认为语言能够更好的帮助预训练模型更好的识别图像。CBN以LSTM提取的自然语言特征作为条件，预测BN层参数的增量，使得不同的输入都有相对应的归一化参数。既然自然语言特征可以作为condition，用于预测BN参数的变化，那么图片的类别信息自然也可以作为condition来预测BN层的参数。受此启发，本文认为图像能够帮助预训练语言模型更好的说话。在预训练语言模型中，LN层取代了BN层，因此，需要将图片信息嵌入到LN层中，通过这种操作使得预训练语言模型面对下游任务时，能更好的参考图片信息进行特征选择。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于条件嵌入预训练语言模型的图像标题生成方法。通过本发明方法来解决预训练语言模型在进行下游任务时，不能时刻借鉴图像信息的问题。为了解决这些问题，本发明不再遵循这种主流做法，并提出通过视觉特征作为条件输入来调节整个预训练语言模型的处理。具体来说，在预训练语言模型UNILM的输入端构建KEN(Keywords Embedding Network)，KEN使用目标检测的方法对图像进行目标检测，并将检测结果作为关键文本信息，通过关键词嵌入的方式进行输入。通过构建VEN(Visual Embedding Network)对图像特征进行提取，并将图像进行编码，通过条件嵌入的方式进行输入。对于预训练语言模型来说，transformer中的LN层已经有现成的、无条件的g(gain)和b(bias)了，它们用于对特征施加增益和偏置操作，都是固定长度的向量。CELN需要保持模型跟原来的预训练语言模型一致，通过VEN对图像进行编码为g',b'作为条件输入，g',b'跟g,b具有相同的维度，然后将结果分别加到g和b上去。从含义上讲可以解释为：根据g',b'的信息，预训练语言模型强调和图像相关的特征选择，降权另一部分特征。通过条件调节权重，模型在文本生成时，会针对性的关注和图片相关的特征，达到对图像的准确描述。结果表明，这种方法具有更好的鲁棒性和自适应能力。

本发明有益效果如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110292541.6/2.html，转载请声明来源钻瓜专利网。

上一篇：识别系统和识别方法
下一篇：一种基于视觉嵌入和条件归一化的图像描述方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于条件嵌入预训练语言模型的图像标题生成方法有效

专利文献下载