[发明专利]一种基于二值对比密度的高效数据模式挖掘方法有效
申请号: | 201710349313.1 | 申请日: | 2017-05-17 |
公开(公告)号: | CN107203608B | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 张炜;操晓春 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对比 密度 高效 数据 模式 挖掘 方法 | ||
本发明公开了一种基于二值对比密度的高效数据模式挖掘方法。本方法为:1)将待挖掘数据转化成二值码,并将所述二值码作为正集合P;选取一作为该待挖掘数据对比的背景数据集,并将其转换后的二值码作为负集合N;2)构建适用于二值码的核函数Kb(d),用于计算每一对二值码的汉明距离小于或等于d的概率;3)根据优化目标,得到该待挖掘数据的模式本发明能有效挖掘更具区分度的数据模式,且在不损失精度的前提下,本发明比现有算法快50倍,节省30~60倍内存。
技术领域
本发明属于数据挖掘领域,提出一种针对大规模数据集的基于二值对比密度的高效数据模式挖掘方法。
背景技术
模式发现是大数据分析中最根本的问题之一。给定一个大规模无标注数据集合(例如,从社交网站上抓取的大量图像),首要的问题就是,“数据集中都有些什么样的模式?这个数据集与其他‘常见的’数据集有什么区别?”,本发明的模式发现旨在无监督地快速找到具有代表性和区分度的模式。在大数据的背景下,模式挖掘变得越来越重要,因为它提供了表征大型数据集的有效方法。在目前社交媒体网站图片、视频等多媒体内容爆炸式增长的情况下,支持大数据的高效数据挖掘显得尤为重要。
本发明在此背景下,主要完成了三个目标。第一,发现数据集中有代表性的模式,能充分代表目标数据集中大量出现的内容。第二,发现的模式要有一定的区分度,不能和其它数据集太过相似,因为区分度低的模式很难表征目标数据集。第三,针对大数据背景,设计高效数据表达和高效数据挖掘算法,以支撑海量大数据的高效处理。以视觉模式挖掘为例,给定某个社交网站上的图片集,需要找到出现频率高,且能区别于其它网站数据的图片模式。
在模式挖掘中,已有技术主要是基于欧几里德空间聚类。这些技术存在两个根本问题:一个是可扩展性,难以适用于大规模数据集(比如千万、亿级数据集);另一个问题在于所发现的模式的区分度不高。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于二值对比密度的高效数据模式挖掘方法。本发明基于对比密度的二值均值偏移算法大大提高了模式挖掘效率,一方面,计算和存储的瓶颈(可扩展性问题)会因为采用了本发明的二值化挖掘算法得到解决,另一方面,通过基于对比密度的模式搜索来抑制没有代表性的模式。
通常情况下,特征空间中的模式通常对应于出现频率高的常见模式,例如在视觉数据挖掘中,天空、草地、人像等随处可见。但是,高频内容并不能直接作为一个数据集的有效模式,因为高频模式并不具有较强区分度。本发明通过与另一组背景分布进行对比,找出有代表性且有区分度的模式。本发明为高扩展性模式挖掘提出了一种二值模式搜索算法——基于对比密度的二值均值偏移算法,其流程如图1所示,其主要步骤如下:
(1)把数据转化成二值码
本发明的目标是用具有存贮与计算优势的二值码最大可能地近似数据,最小化二值化后续计算过程中的精度损失。因此,采用迭代量化算法(ITQ),把待挖掘数据转化成二值码。通过旋转矩阵R把数据X转化为二值码B,以此来最小化精度损失。
(2)构建适用于二值码的二项核函数
令B={b1,b2,...,bn}是嵌入在k维二值空间{-1,1}k中的X的相应二值码,其中bi是由ITQ产生,假定二值码均匀分布在{-1,1}k中,两个随机二值码之间的汉明距离服从二项分布Bin(k,1/2)。据此本发明提出一个核函数Kb(d)来加权具有不同汉明距离的二值码,具体如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710349313.1/2.html,转载请声明来源钻瓜专利网。