[发明专利]基于Hadoop的MapReduce框架的数据关联方法在审
申请号: | 201911368399.8 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111177103A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 舒丽;孙龙超;唐劭;龚平;曾永钢 | 申请(专利权)人: | 北京亚信数据有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/2458 |
代理公司: | 北京鼎承知识产权代理有限公司 11551 | 代理人: | 田恩涛;柯宏达 |
地址: | 100193 北京市海淀区西北旺东路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hadoop mapreduce 框架 数据 关联 方法 | ||
本公开提供了一种基于Hadoop的MapReduce框架的数据关联方法,包括:获取参数,所述参数包括待关联的第一数据源和第二数据源、两个数据源之间数据的关联字段以及两个数据源之间数据的连接类型;利用Hadoop的MapReduce框架的混排和排序,将第一数据源和第二数据源中的数据划分至多个列表中,其中,每个列表中的数据为第一数据源和第二数据源中键相同的数据;根据连接类型,对每个列表中来自所述第一数据源的数据与来自所述第二数据源的数据进行笛卡尔积组合,获得所述第一数据源与所述第二数据源的数据关联结果。本公开的方法能够提高数据关联的效率。
技术领域
本公开涉及数据处理技术领域,尤其涉及一种基于Hadoop的MapReduce框架的数据关联方法。
背景技术
目前,面对日益增长的海量数据的处理需求,常采用Hadoop的解决方案。Hadoop的框架最核心的设计就是HDFS(Hadoop Distributed FileSystem,分布式文件系统)和MapReduce。
HDFS为海量的数据提供了存储,HDFS有高容错性的特点,并且用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。MapReduce为海量的数据提供了计算。
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。Map(映射)和Reduce(归约),是MapReduce的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。在Map阶段根据数据的大小划分为多个分布式计算任务,尽可能利用数据本地化出来速度快的优势在本地进行运算,然后进行分区(即根据相同的关键字的数据进入同一数据处理列),最后在Reduce阶段进行合并关联运算。
相关技术中,在对两个数据源中的数据进行关联的过程中,通常需要对全部数据进行排序,并反复遍历所有数据以进行数据匹配,其消耗的资源较多,占用时间长,需要匹配的数据量基数非常大,严重影响了实现数据关联的效率。
发明内容
为了解决上述技术问题中的至少一个,本公开的一些实施例提供了一种基于Hadoop的MapReduce框架的数据关联方法,该方法包括:获取参数,所述参数包括待关联的第一数据源和第二数据源、两个数据源之间数据的关联字段以及两个数据源之间数据的连接类型;利用Hadoop的MapReduce框架的混排和排序,将所述第一数据源和所述第二数据源中的数据划分至多个列表中,其中,每个列表中的数据为所述第一数据源和所述第二数据源中键相同的数据;根据所述连接类型,对每个列表中来自所述第一数据源的数据与来自所述第二数据源的数据进行笛卡尔积组合,获得所述第一数据源与所述第二数据源的数据关联结果。
在本公开的至少一个实施例中,所述连接类型包括内连接、左连接、右连接或者全连接。
在本公开的至少一个实施例中,所述第一数据源和所述第二数据源中键相同的数据以键值对的形式划分入同一列表中。
在本公开的至少一个实施例中,所述利用Hadoop的MapReduce框架的混排和排序,将所述第一数据源和所述第二数据源中的数据划分至多个列表中之后,所述基于Hadoop的MapReduce框架的数据关联方法还包括:对于每个列表,在所述列表中所有来自于所述第一数据源中的数据前面设置第一标识,在所述列表中来自于所述第二数据源中的数据前设置第二标识。
在本公开的至少一个实施例中,所述对每个列表中来自所述第一数据源的数据与来自所述第二数据源的数据进行笛卡尔积组合,包括:对每个列表中设置有第一标识的数据与设置有第二标识的数据进行笛卡尔积组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚信数据有限公司,未经北京亚信数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911368399.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种广告资源整合平台
- 下一篇:一种基于高精度定位技术的混合现实交互系统