[发明专利]一种能识别网页信息自动采集的系统与方法有效

专利信息
申请号: 201310128305.6 申请日: 2013-04-10
公开(公告)号: CN103218431A 公开(公告)日: 2013-07-24
发明(设计)人: 张炜;金军;吴杨梓;江岩 申请(专利权)人: 金军;江岩
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 230000 安徽省合肥*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 识别 网页 信息 自动 采集 系统 方法
【说明书】:

技术领域

发明涉及网页动态解析技术领域,具体属于一种能识别网页信息自动系统与方法。

背景技术

随着互联网的发展,出现了越来越多的互联网网站,形式层出不穷,出现了新闻,博客,论坛,SNS,微博等。据CNNIC今年的最新统计,中国现已有网民4.85亿,各类站点域名130余万个。在互联网信息爆炸的今天,搜索引擎已成为人们查找互联网信息的最重要工具。

搜索引擎主要通过自动爬取网站信息,并对其进行预处理,分词后,建立索引。输入检索词后,搜索引擎能够自动的为用户查找出最相关的结果。搜索引擎经过十多年的发展,技术已相对成熟,且因为有成功的商业模式可以运用,因而吸引了众多互联网厂商进入,比较著名的有百度,谷歌,搜搜,搜狗,有道,奇虎360等。另外还有一些垂直领域的搜索引擎(如旅游,机票,比价等),进入的厂商不下千家。

搜索引擎的第一步也是最重要的一步是信息抓取,该步骤是搜索引擎的数据准备过程。具体过程如图1所示。URL DB存放所有待爬取的URL,URL调度模块从URL DB中选取出最重要的URL并将其放入URL下载队列,页面下载模块对该队列中的URL进行下载,下载完毕后,抽取模块对下载的页面代码进行正文和URL抽取,抽取的正文发送给索引模块进行分词和建索引,URL放入URL DB。

信息采集过程,是将别人网站的信息放到抓取到自己的信息库的过程,会面临着一些问题。

1、互联网信息每刻都不停的增加,因而信息抓取是7*24小时不间断过程。频繁的抓取会对目标网站带来巨大的访问压力,形成DDOS拒绝服务攻击,导致无法为正常用户提供访问,这一点在中小型网站体现的尤为明显,这些网站的硬件资源比较差,技术力量不强,而互联网中90%以上是该类型的网站。例如:某著名搜索引擎由于频繁抓取某网站而召到用户投诉。

2、有些网站的信息具备隐私或版权,很多网页中包含后台数据库、用户稳私、密码等信息。网站主办者不希望这些信息被公之于众或无偿使用。大众点评网曾就爱帮网抓取其网站上的点评信息,然后发布在自己网站上的行为进行起诉。

目前针对搜索引擎的网页反采集采取的主流方法有robots协议约定,网站通过一个robots.txt协议来自主控制是否愿意自身内容被搜索引擎收录,以及允许哪些搜索引擎收录,并且指定自身可供收录和禁止收录的内容。同时,搜索引擎会自觉按照每个网站Robots协议给予自己的权限来进行抓取。该方法假定的搜索引擎爬取流程如下:

下载网站robots文件-按robots协议解析该文件--获取待下载的URL-判断该URL所在的访问权限-根据判断结果决定是否爬取。

Robots协议是君子协议,无任何约束性,爬取的主动性仍然完全控制在搜索引擎一方,完全可以不遵循该协议进行强行爬取。例如国内某著名搜索引擎在2012年8月份不遵循该协议爬取百度网站内容而遭到百度指责。

另外一种反采集方法主要通过使用动态技术构建欲禁止抓取的网页,该方法通过使用客户端脚本语言(如JS,VBScript,AJAX)动态生成网页显示信息,从而实现信息隐藏,使常规的搜索引擎难以获取URL和正文内容。动态网页构建技术只是增加了网页解析和抽取的难度,并不能从根本上禁止网页信息的采集和解析,目前,一些先进的搜索引擎已经可以做到模拟浏览器实现所有脚本代码的解析,获取所有信息的网络URL,从而获取存放于服务器的动态信息。

目前已经存在成熟的网页动态解析技术,主要是通过解析网页中所有的脚本代码段,然后获取网页所有的动态信息(包括有用信息和垃圾信息)。实际实施过程是以开源的脚本代码解析引擎(如Rhino,V8等)为内核,构建网页脚本解析环境,然后抽取网页中的脚本代码段,将抽取的代码段放入网页脚本解析环境中执行解析,从而返回动态信息。解析过程如图2所示,所以动态技术构建动态网页的方法只是增加了网页采集和解析的难度,并没有从根本上杜绝搜索引擎的采集。

发明内容

本发明的目的是提供了一种能识别网页信息自动采集的系统与方法,克服了现有技术的不足,该系统通过分析网站的历史网页访问行为,建立自动采集分类器,识别出机器人的自动采集,通过自动机器人采集识别,实现网页反抓取。

本发明采用的技术方案如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于金军;江岩,未经金军;江岩许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310128305.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top