[发明专利]一种基于双向CNN的跨模态语义聚类方法在审
申请号: | 202110718799.8 | 申请日: | 2021-06-28 |
公开(公告)号: | CN113537304A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 颜成钢;王超怡;孙垚棋;张继勇;李宗鹏 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双向 cnn 跨模态 语义 方法 | ||
本发明公开了一种基于双向CNN的跨模态语义聚类方法,首先进行数据的预处理,对训练集的文本样本进行预训练;然后构建跨模态检索网络,通过训练集训练跨模态检索网络,计算网络的损失函数;进行反向传播,通过选定的优化器和相应参数对连接权重进行优化;训练多轮后得到最终的网络模型;最后通过测试集的对训练好的模型进行测试,计算各项评价指标。本发明方法利用语义信息的聚类,来提高了跨模态检索的精确度和效率。本发明设计了一项在目标空间中样本和聚类中心的损失,类别在不同模态中的分布差异损失以及判别损失来帮助语义聚类,不仅加强了不同类别间的识别能力,而且增强了不同模式之间的相关性。
技术领域
本发明涉及计算机视觉领域,尤其涉及基于深度学习的跨模态检索方法。
背景技术
在新媒体信息爆炸的时代,每一位新媒体用户都会随时随地发布各种各样的不同模态的多媒体信息,例如图片、音乐、视频或是文字。由于多媒体信息的迅速发展,随着多媒体信息数量、种类的增多,用户想要准确的获取自己想要的信息也变得困难起来,获取信息的同时,总是附随着相关度不同的其他信息。这些数据,不仅数量庞大,而且多数都是没有标签的数据,而且不同的模态,数据之间存在着“异构鸿沟”,所以跨模态检索的主要技术问题就是跨过这些不同模态数据之间的“鸿沟”,提取检索数据的精度和准确度。
跨模态检索技术的核心是衡量不同数据之间的相似性。由于“异构鸿沟”的存在,所以跨模态检索的关键在于如何匹配不同模态的信息。迄今为止,大多数跨模态检索是将不同模态的样本映射到同一子空间。还可以根据使用信息分类为非监督方法和监督方法。监督方法则是使用了样本所带有的标签信息。
虽然,跨模态检索都是基于映射于同一子空间,但是根据损失函数的选取和设置,也会有不同的效率以及准确度。在这项发明中,我们设计了一项在目标空间中样本和聚类中心的损失,类别在不同模态中的分布差异损失以及判别损失来帮助语义聚类,不仅加强了不同类别间的识别能力,而且增强了不同模式之间的相关性。
发明内容
本发明提出一种基于双向CNN的跨模态语义聚类方法。该方法可以有效提高跨模态检索的效率和准确率。
本发明分别利用两个CNN网络结构分别进行,一个深层CNN用来提取图片样本的特征向量。一个浅层CNN,利用不同尺寸的多核卷积来提取文本样本的特征向量。
传统的利用标签信息的跨模态检索,往往只考虑到了模态间的内容相似度,本发明提出一种跨模态检索方式,提出了一种新颖的语义聚类方式。根据类别相同的样本应该具有一致的分布,为了使样本在目标空间中可以对应到相应的类别分布,计算了目标空间的聚类中心。定义损失函数为在目标空间中样本和聚类中心的损失,类别在不同模态中的分布差异损失以及判别损失。
该方法具体包括以下步骤:
步骤1:数据的预处理,对训练集的文本样本进行预训练。
采用现有的数据集,按设定比例将其分为训练集和测试集,对训练集的文本样本进行预训练。
步骤2:构建跨模态检索网络。
跨模态检索网络采用双CNN同时进行。通过ResNet-50网络提取图片样本的特征向量。对于文本样本,先利用Word2Vec预训练词向量,再通过TextCNN提取文本的特征向量。
步骤3:通过训练集训练跨模态检索网络。
步骤4:计算网络的损失函数。进行反向传播,通过选定的优化器和相应参数对连接权重进行优化。训练多轮后得到最终的网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110718799.8/2.html,转载请声明来源钻瓜专利网。