[发明专利]一种面向MapReduce框架的地理归属信息查询方法有效
申请号: | 201410328449.0 | 申请日: | 2014-07-10 |
公开(公告)号: | CN104102707A | 公开(公告)日: | 2014-10-15 |
发明(设计)人: | 张未展;贺欢;薛妮;郑庆华;董博 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 陆万寿 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 mapreduce 框架 地理 归属 信息 查询 方法 | ||
【技术领域】
本发明涉及互联网技术领域,特别是涉及一种面向MapReduce框架的地理归属信息查询方法。
【背景技术】
随着互联网技术的发展,信息系统的中存储的数据日益庞大,为了充分利用MapReduce框架分析这些数据,必须对这些数据进行预处理,其中就包括获取数据的地理归属信息。比如在税务系统中,经常需要对各地各单位各企业提供的报税记录进行分析,通过对原始数据的地理信息进行比对筛查,发现其中可能存在的问题。数据的地理归属信息的获取主要依靠对数据中IP地址对应地理归属信息的查询和转换来获得,通常可以利用查询IP地址库实现。而当需要在多个终端上对海量数据进行地理归属信息查询时,现有的查询单机IP库方式就难以满足查询的需求。针对如何更好的为分布式的并发计算环境提供地理归属信息查询的需求,以下专利和论文提供了不同的技术方案:
文献1.王晓勇,邱玉辉.基于查找树的IP地址分类算法研究[J].计算机科学,Vol.34,No.6,2007:76-77;
文献2.一种基于IP地址信息获取计算机精确地理位置信息的方法(200710070601.X);
文献1将IP地址看作是由4个字符组成的字符序列,其中每个字符的取值范围从0到255共256种,然后据此设计了一个深度为4的256叉Trie树,除了叶子节点以外,树的每个节点有256个指针,分别指向256个分支,每个节点有一个存储单元,存储该节点及前缀节点的IP地址信息。使用该方法查询时,进行4次查找即可获得IP地址的完整信息,时间复杂度是O(4)。
文献2将计算机终端由DHCP服务器动态分配的IP地址(IPv6)、由NAT网关/路由器翻译的IP地址和端口号(IPv4)、由宽带接入服务器获取的计算机终端的精确地理位置信息保存到定位信息数据库并发布为定位信息WEB服务,供网站访问;网站根据与之交互的计算机终端的IP地址信息访问定位信息WEB服务,获取计算机终端的精确定位信息,从而为计算机用户提供基于精确定位信息的个性化服务。
以上文献所述方法主要存在以下问题:文献1设计的256叉Trie树的每个节点有256个指针,每个指针都保存了节点的信息,存储空间浪费较大,且所提供的计算程序只能使用在单机计算环境,缺少对分布式计算环境的支持。文献2所提供的方法重点在于IP地址的地理信息的采集,只适合于针对识别用户位置进而提供个性化的服务的场景,查询过程较为复杂,不适合为大量客户端提供海量数据的并发处理。
【发明内容】
本发明的目的在于提出一种面向MapReduce框架的地理归属信息查询方法,以解决背景技术的方法中不适合处理分布式计算环境、空间浪费较大的问题,为处理海量数据的地理归属信息提供支持。
为了达到以上目的,本发明是采取如下技术方案予以实现的:
一种面向MapReduce框架的地理归属信息查询方法,包括下述步骤:
(1)设计IP地址转换地理归属信息编码表TIP,IP地址转换地理归属信息编码表TIP采用一维数组实现,每个数组元素是一个整数G,数组下标x是通过IP地址转换得到的整数;
(2)设计地理归属信息编码详情表,具体包括4个表,分别是国家编码详情表TCODE_COUNTRY、省/区编码详情表TCODE_REGION、城市编码详情表TCODE_CITY以及运营商编码详情表TCODE_ISP;
(3)利用步骤(1)中设计的IP地址转换地理归属信息编码表TIP和步骤(2)中设计的4个地理归属信息编码详情表,设计查询IP地址的对应地理归属信息编码或者详情的算法;
(4)利用步骤(3)中设计的查询算法,构建基于Web面向MapReduce框架调用环境的查询服务。
本发明进一步改进在于,IP地址转换地理归属信息编码表TIP中,IP地址转换数组下标x的方法是:将IP地址表达为a.b.c.d四个整数的形式,每一位的取值均为0至255的整数,利用IP地址网络区域划分的特点,使用a,b,c三位能够定位到城市的地理归属信息,按如下方式将IP地址转换为整数作为数组的下标x:
数组下标x=a×2563+b×2562+c×256;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410328449.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种磁盘管理方法及数据库管理系统
- 下一篇:数据分享系统及其数据分享方法