[发明专利]一种爬虫的爬取方法及装置在审
申请号: | 201610196270.3 | 申请日: | 2016-03-31 |
公开(公告)号: | CN107291727A | 公开(公告)日: | 2017-10-24 |
发明(设计)人: | 潘峰;孙德彬 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙)11348 | 代理人: | 王伟锋,刘铁生 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 爬虫 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种爬虫的爬取方法及装置。
背景技术
域名是互联网上企业机构的名字,是互联网上各个网站之间相互联系的地址,一般由前缀、主域名、顶级域名组成,例如www.sina.com.cn,前缀是www,主域名是sina,顶级域名是com.cn,通常,对于一个给定的域名,顶级域名用来标识网站的类型,例如com.cn表示中国商业网站,edu.cn表示中国教育网站;主域名用来标识网站的名称,是不同网站之间最明显的差异,例如sina表示新浪,sohu表示搜狐;前缀的命名则相对宽松,一般由网站的管理员决定,例如常见的www,百度百科baike等等。
现有的爬虫技术在进行爬取工作过程中,针对特定的需求往往需要爬取某个网站主域名和顶级域名相同的页面,然而在应用爬虫爬取某个网站的页面时,网站内或多或少会存在其他网站的链接,而这些通过爬虫爬取到的链接并非我们所预期的目标。通常通过设置一个过滤装置对待爬取的网址进行检查,剔除不符合我们预期目标的网址。
目前一般采用人工检测方法或者字符串匹配方法进行检查。然而,人工检测方法在面对大数据背景下人工成本高,同时检查速度较慢;而字符串匹配方法只能检测出域名之间的相同部分和不同部分,并不能准确识别出域名的各组成部分,影响了检查的准确性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种爬虫的爬取方法及装置,提高了爬虫爬取过程中网址检查的速度,同时提高了检查的准确性。
一方面,本发明提供了一种爬虫的爬取方法,包括:
获取待爬取域名;
对所述待爬取域名进行域名解析,根据解析的结果判断所述待爬取域名与预置域名是否相同;
对与所述预置域名相同的待爬取域名进行爬取。
另一方面,本发明提供了一种爬虫的爬取装置,包括:
获取单元,用于获取待爬取域名;
解析单元,用于对所述待爬取域名进行域名解析,根据解析的结果判断所述待爬取域名与预置域名是否相同;
爬取单元,用于对与所述预置域名相同的待爬取域名进行爬取。
借由上述技术方案,本发明提供的一种爬虫的爬取方法及装置,首先获取待爬取域名,对所述待爬取域名进行域名解析,根据解析的结果判断所述待爬取域名与预置域名是否相同,这里的判断域名是否相同的方式可以设定,使得爬虫爬取过程中检查的更加符合用户期望,对与所述预置域名相同的待爬取域名进行爬取。与现有技术的爬虫的爬取方法相比,本发明通过在爬虫爬取过程中采用域名解析的方法识别出待爬取域名的顶级域名、主域名和前缀后,再对于与预置域名相同的待爬取域名进行爬取,从而过滤了用户不期望获取的域名,提高了爬虫爬取的效率,同时降低了人工成本。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种爬虫的爬取方法流程示意图;
图2示出了本发明实施例提供的另一种爬虫的爬取方法流程示意图;
图3示出了本发明实施例提供的一种爬虫的爬取装置结构示意图;
图4示出了本发明实施例提供的另一种爬虫的爬取装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种爬虫的爬取方法流程示意图,如图1所示,所示方法包括:
101、获取待爬取域名。
其中,所述待爬取域名是通过爬虫爬取的入口网页获取的链接,例如,从网址为www.sina.com.cn的网页获取有关新浪网的内容,通过爬虫技术会爬取到很多链接,这里的链接即为待爬取域名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610196270.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息核对方法及系统
- 下一篇:一种获取用户属性的方法、装置及电子设备