[发明专利]基于语义一致性的具有隐私保护的分布式近似性搜索方法有效
申请号: | 201810342218.3 | 申请日: | 2018-04-17 |
公开(公告)号: | CN108509651B | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 胡鸣珂;崔志锴;胡海峰 | 申请(专利权)人: | 胡海峰 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F21/62 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 李吉宽 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 转换矩阵 语义一致性 近似性 拉格朗日乘子 目标函数 隐私保护 通信 搜索 大规模数据 数据隐私性 传输通信 分类标记 近邻节点 搜索过程 训练算法 有效解决 原始信息 初始化 集中式 求解 更新 构建 数据库 存储 视频 图像 引入 交换 | ||
本发明公开了基于语义一致性的具有隐私保护的分布式近似性搜索方法。首先在各个节点的数据库中对图像、视频、文件进行分类标记,初始化转换矩阵和拉格朗日乘子,然后引入语义一致性构建目标函数,求解上述目标函数,更新转换矩阵。近邻节点进行通信,并判断各节点的转换矩阵是否趋于一致,更新拉格朗日乘子,最后进行近似性搜索过程。本发明解决了大规模数据在存储,计算时所需规模过大,集中式地训练算法模型已不再适合的问题。而且通过使用转换矩阵进行节点间的通信,节点间的通信不交换原始信息,能有效解决传输通信过大的问题,同时能对节点上的数据隐私性进行有效保护。
技术领域
本发明属于机器学习领域,主要涉及在分布式环境下采用距离度量学习确保样本的一致性,具体涉及基于语义一致性的具有隐私保护的分布式近似性搜索方法。
背景技术
随着社交网络、电子商务、移动互联网等的不断发展,数据需要存储、处理的规模越来越大,单机系统已无法满足日益增长的需求。Google、Alibaba等互联网公司成功催生了云计算和大数据这两大热门领域,云计算和大数据都是构建在分布式存储之上的应用。云存储的核心是后端的大规模分布式存储系统,大数据不仅需要存储海量的数据,还要通过合适的框架和工具对这些数据进行分析,得到其中有用的部分,如果没有分布式的存储就谈不上对大数据进行分析。虽然分布式系统的研究已经进行了很多年,但直到近些年,互联网大数据的兴起才使得分布式系统大规模地应用在工程实践中。分布式系统是利用多台计算机协同解决单台计算机所不能解决的计算、存储问题,分布式系统与单机系统最大的区别就在于问题的规模。它是由多个节点组成的系统,往往将一台服务器或者服务器上的一个进程称为一个节点,这些节点一般不是孤立的,而是通过网络来互相通信,传递信息。另外,由于智能手机等移动终端的快速发展,智能手机存储了大量的图片、文本和视频等信息,智能手机也可以看做是一个独立的节点,智能手机之间通过基站或者相互之间通过分布式协作来提高数据处理能力。
隐私保护是数据挖掘中的一个重要研究方向,正是由于数据挖掘的广泛应用,使得隐私保护受到极大的关注。分布式计算中,各节点之间必然要进行相互的通信,在通信的过程中,就可能存在节点隐私泄露的情况。如何在保护隐私的同时有效地进行分布式的存储和计算是当今研究的一个热点。目前,分布式环境下隐私保护的方法主要有数据扰动、加密存储、安全多方计算等。数据扰动是指对原始数据采取封闭或隐藏的方式,产生新的数据源,但这种方式会大大降低数据精确性,从而影响分析结果。加密存储是一种公认的数据保护技术,主要通过加密和解密的方式保护隐私数据。安全多方计算技术,属于密码学研究的范畴,通过一些基础的协议构建出保护隐私协议的方案。但以上算法均需要增加额外的计算和存储开销。
另外,机器学习中广泛采用的欧式距离不能很好地反映样本之间的语义信息,比如“哈士奇”和“吉娃娃”都属于类别“狗”,但“哈士奇”可能和“狼”看起来更接近,它们的欧氏距离比“哈士奇”和“吉娃娃”的欧氏距离更近,因此通过训练学习到一个优化的转换矩阵,通过转换矩阵映射到新的空间,在新的空间中同种类别的样本它们之间的距离更近,这样就更可能找到语义近邻,提高搜索的精度。而马氏距离能通过转换矩阵的不断优化,将原始的特征空间映射到新的特征空间,使得具有相同标记的样本在新的特征空间中的距离尽可能的小,具有不同标记的样本之间的距离不断拉大,这样在新的特征空间中更加符合语义一致性。
综上所述,现有技术中对于如何利用马氏距离环境下具有相同标记的样本在新的特征空间中的距离较小的优点解决分布式计算时节点间传输原始数据容易造成信息泄露的问题尚没有公开的披露。
发明内容
本发明的目的在于提供一种基于语义一致性的具有隐私保护的分布式近似性搜索方法,主要用于解决图像,视频,文本等样本数目大,无法精确的找到语义近邻,同时分布式计算时节点间传输原始数据容易造成信息的泄露,传输量过大的问题,本方法的主要目的是通过分布式训练,以较低的计算开销训练得到全局优化的转换矩阵,同时保护分布式训练中各节点的数据隐私,并实现查询样本的语义一致性近邻搜索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于胡海峰,未经胡海峰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810342218.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种违禁视频内容检索系统
- 下一篇:数据处理系统及方法