[发明专利]基于Spark平台的分布式大数据函数依赖发现方法有效
申请号: | 201811285204.9 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109918410B | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 张海粟;王龙;左青云;李韬伟;张胜;吴照林;刘鹏飞;朱明东;戴剑伟;徐飞;刘培磊;文峰;刘一博;张岩 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 严彦 |
地址: | 430014 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于Spark平台的分布式大数据函数依赖发现方法,包括数据分区,包括根据Spark集群各节点分配的CPU内核数对数据进行分区;生成属性集合的所有非空子集,包括通过数据库中的所有属性集合,生成含有所有非空子集的集合,为求解所有属性集合的等价类个数作准备;累加各节点属性集合的等价类数量,通过等价类计算得到全局数据库的(属性集合,等价类数)集合;迭代各属性集合生成函数依赖集合,包括由各属性集合的子集构建候选函数依赖关系,判断函数依赖关系是否成立。该方法解决了分布式环境下函数依赖发现算法的负载不平衡和低效问题,大幅度提高了函数依赖发现的执行效率。 | ||
搜索关键词: | 基于 spark 平台 分布式 数据 函数 依赖 发现 方法 | ||
【主权项】:
1.一种基于Spark平台的分布式大数据函数依赖发现方法,其特征在于,包括以下步骤:步骤1,数据分区,包括根据Spark集群各节点分配的CPU内核数对数据进行分区;步骤2,生成属性集合的所有非空子集,包括通过数据库中的所有属性集合,生成含有所有非空子集的集合,为求解所有属性集合的等价类个数作准备;步骤3,累加各节点属性集合的等价类数量,通过等价类计算得到全局数据库的(属性集合,等价类数)集合;步骤4,迭代包含各集合属性的函数依赖关系,构建下一层候选函数依赖关系,判断各层函数依赖关系是否成立。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811285204.9/,转载请声明来源钻瓜专利网。