[发明专利]一种站点地域识别方法及系统在审
申请号: | 201610170296.0 | 申请日: | 2016-03-23 |
公开(公告)号: | CN107231447A | 公开(公告)日: | 2017-10-03 |
发明(设计)人: | 曹六一;张丹;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | H04L29/12 | 分类号: | H04L29/12 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 李相雨 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 站点 地域 识别 方法 系统 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种站点地域识别方法及系统。
背景技术
站点地域信息指的是一个站点的地域归属信息。作为站点的基础属性,地域信息对站点的抓取、分类、信息提取等多种应用具有重要价值。比如在网站抓取方面,通过对站点地域信息的获取,选择最优抓取节点抓取站点网页,可以大大提高抓取成功率和速度;在搜索引擎的网页排名中,站点地域信息也可以作为一个调权因子,使搜索的排序结果可以满足不同地域用户的精确需求。
DNS是域名系统(Domain Name System)的缩写,是因特网的一项核心服务,可将域名转换成IP地址,这种将域名转换成IP地址的过程被称为域名解析。DNS服务使用户可方便地通过域名访问互联网,而无需记住枯燥难记的IP地址。
现有的站点地域识别方法通过人工对站点的地域进行标注。但是互联网上的站点数量庞大,且持续增长,通过人工标注无法完成所有站点的地域识别,且大量的不知名站点的地域信息非人工能简单获取,因此,需要一种自动识别站点地域信息的方法,以满足站点数据处理的需要。
发明内容
本发明所要解决的技术问题是:如何提供一种自动识别站点地域的方法。
为解决上述技术问题,本发明一方面提供一种站点地域识别方法,该方法包括:
根据待识别站点的域名获取待识别站点的IP地址;
根据全球IP地址分配表建立IP地址与站点地域信息的映射表;
查找所述IP地址与站点地域信息的映射表,获取与所述待识别站点的IP地址对应的站点地域信息。
可选地,在所述根据全球IP地址分配表建立IP地址与站点地域信息的映射表之前,还包括:获取全球IP地址分配表。
可选地,所述根据待识别站点的域名获取待识别站点的IP地址,包括:
采用DNS服务根据待识别站点的域名解析出待识别站点的IP地址。
可选地,在所述根据全球IP地址分配表建立IP地址与站点地域信息的映射表之后,包括:
根据所述IP地址建立所述映射表的索引;
相应地,所述查找所述IP地址与站点地域信息的映射表,包括:采用二分法查找所述IP地址与站点地域信息的映射表。
可选地,所述查找所述IP地址与站点地域信息的映射表包括:
将所述IP地址与站点地域信息的映射表拆分成多个数据分片;
利用多个计算节点分别读取相应的数据分片进行数据查找。
本发明另一方面提供一种站点地域识别系统,该系统包括:
IP地址获取单元,用于根据待识别站点的域名获取待识别站点的IP地址;
映射表建立单元,用于根据全球IP地址分配表建立IP地址与站点地域信息的映射表;
地域识别单元,用于查找所述IP地址与站点地域信息的映射表,获取与所述待识别站点的IP地址对应的站点地域信息。
可选地,该系统还包括:
IP地址分配表获取单元,用于获取全球IP地址分配表
可选地,所述IP地址获取单元,进一步用于采用DNS服务根据待识别站点的域名解析出待识别站点的IP地址。
可选地,该系统还包括:
索引建立单元,用于根据所述IP地址建立所述映射表的索引;
相应地,所述地域识别单元用于采用二分法查找所述IP地址与站点地域信息的映射表。
可选地,所述地域识别单元包括:
映射表拆分模块,用于将所述IP地址与站点地域信息的映射表拆分成多个数据分片;
数据查找模块,用于利用多个计算节点分别读取相应的数据分片进行数据查找。
本发明提供的站点地域识别方法及系统,通过获取到的待识别站点的IP地址查找IP地址与站点地域信息的映射表,获取与所述待识别站点的IP地址对应的站点地域信息,避免了部分站点信息无法通过人工获取的缺陷,实现了自动识别站点地域,方便快捷。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明一个实施例的站点地域识别方法的流程示意图;
图2示出了本发明一个实施例的站点地域识别系统的结构示意图。
具体实施方式
下面将结合附图对本发明的实施例进行详细描述。
图1是本发明一个实施例的站点地域识别方法的流程示意图。如图1所示,本实施例的站点地域识别方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610170296.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:同步IP配置方法和装置
- 下一篇:一种链路建立方法、设备和系统