[发明专利]基于动态记忆力的社交媒体数据在线检索方法及系统有效
申请号: | 202210971339.0 | 申请日: | 2022-08-15 |
公开(公告)号: | CN115048539B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 罗昕;王娜;丁陈璐;许信顺 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F16/43 | 分类号: | G06F16/43;G06F16/41;G06K9/62 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 动态 记忆力 社交 媒体 数据 在线 检索 方法 系统 | ||
本发明提供一种基于动态记忆力的社交媒体数据在线检索方法及系统,涉及大规模流数据检索技术领域,该方法包括:获取多个轮次的样本数据和对应的用户标签;自第一轮次开始,对每个轮次样本数据依次进行哈希函数学习,得到样本数据的哈希码,并存入数据库;接收待检索的社交媒体数据,根据优化后的哈希函数映射得到相应的哈希码,通过将所述社交媒体数据的哈希码与数据库中样本数据的哈希码进行比较,得到检索结果。该方式适用于在线场景的要求,并且利用不同轮次样本数据中新旧数据标签之间的成对相似性矩阵来指导生成精细化伪标签,根据精细化伪标签确定哈希损失函数,可以缓解用户标签的负面影响,提高所生成哈希码的质量。
技术领域
本发明属于大规模流数据检索技术领域,尤其涉及一种基于动态记忆力的社交媒体数据在线检索方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成已经成为本领域一般技术人员所公知的现有技术。
过去几十年中,图像、文本、视频等社交媒体数据爆炸式增长,对于社交媒体数据的检索需求也日益增长。哈希学习凭借其检索速度快、存储消耗低等优点,已经成为一种流行的近似最近邻技术,它将高维数据映射为二进制码,同时保持数据在原始空间中的相似性。此外,将数据表示成二进制码的形式,还可以获得快速检索的优势,因为计算机在处理二进制编码间的两两比较有很高的效率,所以可以使检索的速度变得很快。
目前哈希学习可以分为有监督的学习、弱监督的学习和无监督的学习,分别利用专家标记的标签、用户提供的标签和无监督信息来指导哈希码的生成。由于用户提供的标签易于访问、具有多样性,并且可以提供视觉特征之外的额外信息,弱监督哈希学习引起了越来越多的关注。然而,与专家标记的干净标签相比,用户提供的标签并不完美,例如标签错误、标签重复、标签缺失等,这会影响检索模型的性能。为了减轻用户标签的负面影响,已有一些方法通过利用标签的语义信息等缓解标签不完美的问题。虽然这些方法都取得了良好的性能,但它们中的大多数训练策略都是基于批处理的,不仅会随着流式数据的到来而不断增大内存和计算成本,而且也违背了社交媒体数据是分批收集的、由流媒体生成的自然属性。近年来虽然有一些面向流式数据的在线弱监督哈希方法取得了显著的改进,但它们仍然不能克服标签缺失、在线场景的灾难性遗忘的局限。
发明内容
为了解决上述问题,本发明提供一种基于动态记忆力的社交媒体数据在线检索方法及系统,利用不同轮次样本数据中新旧数据标签之间的成对相似性矩阵,构造精细化伪标签,并根据精细化伪标签确定哈希损失函数,以缓解用户标签的负面影响,提高所生成哈希码的质量。
为了实现上述目的,本发明主要包括以下几个方面:
第一方面,本发明实施例提供一种基于动态记忆力的社交媒体数据在线检索方法,包括:
获取多个轮次的样本数据和对应的用户标签;
自第一轮次开始,对每个轮次样本数据依次进行哈希函数学习,得到样本数据的哈希码,并存入数据库;其中,针对第t轮样本数据,根据第t轮样本数据和第t轮之前的样本数据所对应用户标签之间的成对相似性矩阵,构造第t轮样本数据的精细化伪标签;根据所构造的精细化伪标签确定哈希损失函数,通过最小化哈希损失函数,优化哈希函数的相关参数,以及得到第t轮样本数据的哈希码;
接收待检索的社交媒体数据,根据优化后的哈希函数映射得到相应的哈希码,通过将所述社交媒体数据的哈希码与数据库中样本数据的哈希码进行比较,得到检索结果。
在一种可能的实施方式中,所述样本数据包括文本数据、图像数据和视频数据;在获取多个轮次的样本数据和对应的用户标签之后,对每个轮次训练样本依次进行哈希函数学习之前,所述方法还包括:提取所述样本数据的特征,并对用户标签进行独热编码得到标签表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210971339.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于LED的可见光通信发射端校正方法及系统
- 下一篇:一种海藻糖结晶方法