[发明专利]一种图像与文本联合嵌入的多模态文化资源加工方法有效
申请号: | 202110863497.X | 申请日: | 2021-07-29 |
公开(公告)号: | CN113516118B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 郑杰;梁雨昕;胡心悦;黄帝淞;曹瑞;高岭 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06V30/12;G06F16/583;G06N3/0464;G06N3/084;G06V30/18;G06V30/19 |
代理公司: | 西安西达专利代理有限责任公司 61202 | 代理人: | 刘华 |
地址: | 710069 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 文本 联合 嵌入 多模态 文化 资源 加工 方法 | ||
一种图像与文本联合嵌入的多模态文化资源加工方法,包括以下步骤:对从开源或网络搜集的文化资源库中获取的图像‑文本对其中的图像进行目标检测,得到目标区域位置和目标类别名称,建立图像文本联合嵌入模型,使用联合嵌入模型中的各个模块获取目标区域特征、全图特征和文本特征,并在训练中对齐目标区域与文本中的单词,同时对齐整体图像文本特征。本发明综合文本和图像信息,并对其进行联合嵌入,能够有效融合多个模态的特征并用于多模态文化资源的特征提取和有效检索。
技术领域
本发明属于图像处理技术领域,具体涉及图像与文本联合嵌入的多模态文化资源加工方法。
背景技术
文化资源是人类在历史发展过程中所积累的,通过文化创造、积累和延续所构建的,能够为社会经济发展提供对象、环境、条件、智能与创意的文化要素的综合。在当今的数据时代,文化资源也常以电子数据的形式存在和保存,其中往往包括了图片、文本和视频等等多种模态的数据形式。对这些多模态数据的特征提取和检索是充分利用文化资源的基础。
多模态检索技术是通过联合学习不同模态的特征并将不同模态的特征进行联系和对齐,使其在同一特征空间中可以相互检索。在数据模态不断丰富的今天,模态间的相互检索变得更加重要,如使用图像搜索文本信息,或使用文本描述搜索图像等。
本发明使用卷积网络作为图像特征提取的方法。卷积神经网络(Convolutionalneural network,CNNs)作为重要的深度学习模型之一,由于其强大的特征提取能力和泛化能力在图像处理、目标跟踪与检测、自然语言处理、场景分类、人脸识别等计算机视觉相关的领域中被广泛使用,在各类大规模视觉识别数据集上也获得了较高的正确率。
本发明使用词嵌入(word embedding)作为文本特征提取的方法。将文本数据转换为计算机可以识别的表示是自然语言处理中非常重要的一个环节。词嵌入技术的表示方法是目前流行且有效的方法。词嵌入又称词向量,词表征、文本表征等,是自然语言处理(NLP)中语言模型与表征学习技术的统称,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
现有多模态检索一般以关键字搜索为主,这种检索方式严重依赖数据标注文本质量,无法检索到数据中存在但未被标注的特征,而且对人工标注的工作量要求极大,不能满足当前数据急剧增加的时代要求。现有基于图像内容的检索则依赖于图像本身的颜色、纹理、布局等低层信息,虽然可以检索到在表面信息较为相似的图像,但不能有效利用图像本身的语义和图像之间的语义联系。
发明内容
为了充分融合图像和文本信息,有效利用图像本身的语义和图像之间的语义联系以进行更精准的图像文本间的相互检索,充分利用多模态文化资源,本发明采用的技术方案是:
一种图像与文本联合嵌入的多模态文化资源加工方法,通过联合嵌入对齐文本和图像对象,实现多个模态间的相互检索,其特征在于,包括以下步骤:
步骤S1,从开源数据集或网络搜集的的文化资源中获取图像文本对应的样本,并对其中的图像进行目标检测。通过预训练目标检测YOLO模型对图像进行处理,得到图像中一个或多个目标的在原图像中的坐标范围和对应的目标标签。YOLO是一种快速紧凑的开源对象检测模型,与其它网络相比,同等尺寸下性能更强,并且具有很不错的稳定性,可以预测对象的类别和边界框。
步骤S2,通过联合嵌入模型获取图像文本对中多种模态的对应特征。联合嵌入模型包括以下部分:词嵌入(word embedding)层,用于对文本中的单词进行嵌入;卷积神经网络层,用于对图像提取特征;全连接层,用于融合单模态特征。联合嵌入模型将提取如下几种特征:一个或多个目标区域的图像特征,目标区域所对应的文本单词的词向量特征,整体图像特征和整体文本特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110863497.X/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序