[发明专利]一种用于垂直爬虫数据分类整合的策略在审

专利信息
申请号: 201410347438.7 申请日: 2014-07-21
公开(公告)号: CN104133868A 公开(公告)日: 2014-11-05
发明(设计)人: 洪志令;吴梅红 申请(专利权)人: 厦门大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 厦门市首创君合专利事务所有限公司 35204 代理人: 张松亭
地址: 361000 *** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 垂直 爬虫 数据 分类 整合 策略
【说明书】:

技术领域

发明涉及垂直搜索引擎技术领域,尤其是涉及一种用于垂直爬虫数据分类整合的策略。

背景技术

随着网页信息的爆炸性增长,搜索引擎的使用价值也越来越高,成为网络用户必不可少的工具,为用户提供信息导航和查询服务。它整合了互联网上众多的网页资源,根据用户查询的关键词提供相关性网页,并按照相关性排序,是整个互联网的入口。目前,综合搜索引擎是为用户提供查询服务的主力军,但它的综合性,决定了其不能满足专业人群对专门领域的精准化信息需求服务。用户对信息的需求是多元化的,因此搜索引擎的服务模式也必将出现细分,针对不同领域提供更加精确的行业信息,这就促进了垂直搜索的蓬勃发展。

应用综合搜索引擎进行一次搜索,返回给用户的查询结果可能有上万甚至上亿条,尽管相对于浩瀚无比的Web信息,已经进行了很大限度的过滤,但返回的信息仍然是用户不可能全部浏览的海量信息,从而在用户查询请求和网络搜索服务之间造成的巨大浪费和反差。而垂直搜索引擎则是针对这一问题而出现,作为更有专业针对性的搜索引擎,它只搜索特定领域内的信息。由于覆盖的学科领域专一,信息量相对会大大减少,这就降低了采集信息的难度,同时提高了信息的质量

垂直搜索引擎是针对某一个领域的专业搜索引擎,它通过对互联网上的某类专业的信息进行采集、整合,然后按照专业信息相应的结构进行定向抽取,将非结构化的信息处理成结构化的信息,再以信息列表的形式返回给用户。

搜索引擎中最关键的一部分是网页搜索器,它由一个爬虫(Crawler,又称网页抓取器、网络机器人、网络蜘蛛)程序组成。所谓爬虫程序是指会自动地、永不停止地在网络上搜索网页的程序。运行网络爬虫时,只要提供极少量的起始网页,信息采集器就能够按一定的规则沿着网页上的超级链接在网络上漫游,收集资源信息,直至遍历整个网站。它的性能在很大程度上影响了搜索引擎站点的规模。

就目前互联网的规模来说,单台机器运行的网络爬虫远远不能完成在有效的时间内搜索整个web网络的任务,因此现在采用的网络爬虫都是分布式在多机上并行运行的,称为分布式爬虫。爬虫控制器起着集中控的作用,它管理所有的爬虫端,保证web资源能均衡、不重复的由各爬虫爬取。网页分析器对爬取的网页资源进行分析过滤,滤除大量的html标签以及垃圾信息,最终得到有价值的网页内容信息。

现有的通用搜索的策略是尽量获取数据,但是对数据的处理水平比较低,突出问题就是:无效信息过多(噪音数据多)、有效信息不足、有效信息非结构化、返回结果无个性化优化机制。

例如,目前不同的分类网址导航网站有各自的网址分类体系,如hao123.com,2345.com等。当我们想对这些网站的资源进行整合,通过垂直爬虫进行数据抓取并对数据进行非结构化解析后会得到一系列的类别数据,这时我们面临这样一些问题:如何有效的整合这些类别体系?如何保持源分类体系的完整性?如何对源分类体系进行动态跟踪?解决这些问题是现阶段研究的重点和难点。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷,提出一种用于垂直爬虫数据分类整合的策略。

本发明采用如下技术方案:

一种用于垂直爬虫数据分类整合的策略,其特征在于:包括分类体系及其映射机制和动态分类数据整合机制两部分,其中的分类体系及其映射机制包括如下步骤:

1)基准类别体系的构建;

2)爬虫目标网站的类别体系的构建;

3)类别体系映射机制的构建。

优选的,所述步骤1)采用三层次类别应用构建基准类别体系,该体系包括类别ID、大类别、中类别和小类别,该基准类比体系有其对应的类别内容。

优选的,所述步骤2)采用三层次类别应用构建多个爬虫目标网站的类别体系,每个爬虫目标网站的类别体系包括类别ID、大类别、中类别和小类别,且每个爬虫目标网站的类别体系有其对应的类别内容。

优选的,在步骤2)中,对于每个待爬虫的目标网站,都各自创建一个相应的爬虫目标网站的类别体系;在爬虫过程中,将非结构化解析获得的分类数据放入各自的爬虫目标网站类别体系,而对于具体内容的详细信息则放入各自对应的类别内容里。

优选的,所述的类别内容包括有网站的具体信息及其来源网站。

优选的,在步骤3)中,类别体系映射机制的构建是指,基准类别体系提供其最小类别的分类名称,爬虫目标网站的类别体系也提供其最小类别的分类名称,通过二者最小类别的分类名称进行匹配来建立映射关系。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410347438.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top