[发明专利]借助于参考网络抓取建立网络语料库有效

专利信息
申请号: 201310209210.7 申请日: 2013-04-12
公开(公告)号: CN103377291B 公开(公告)日: 2019-09-17
发明(设计)人: S·里夏尔;X·格勒昂;J·费伦齐 申请(专利权)人: 达索系统公司
主分类号: G06F16/951 分类号: G06F16/951
代理公司: 永新专利商标代理有限公司 72002 代理人: 张晰;王英
地址: 法国韦利济*** 国省代码: 法国;FR
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 借助于 参考 网络 抓取 建立 语料库
【说明书】:

一种用于建立网络语料库(WCD)的计算机实现方法,包括以下步骤:‑由网络爬虫(WC)发送查询至参考网络抓取代理(RWCA),这个查询包含资源的至少一个标识符,‑由所述网络爬虫(WC)接收来自所述参考网络抓取代理(RWCA)的响应;‑如果这个响应不包含由所述标识符所识别的资源,则通过所述网络爬虫(WC)从与所述标识符相对应的网站(WS)下载所述资源,并且将所述资源添加到所述网络语料库(WCD);以及,‑如果这个资源包含由所述标识符所识别的资源,则将所述资源添加到网络语料库(WCD)。

技术领域

发明涉及网络信息软件领域,并且特别地涉及从因特网中取回数据以建立语料库的方法和系统,例如那些已知的“网络爬虫”。

背景技术

WWW(万维网)可被认为是一个巨大的数据储存库,其被极大地认为具有非常重要的商业价值。因此,需要向在互联网领域活跃的公司提供工具以创造网络上可用的资源之外的这种价值。这些公司可以提供专用于个体用户的服务(例如搜索引擎),或者以B to B(企业对企业)模型提供给其他公司的服务,例如,对汇总特定商业领域的市场数据等等。

为了能够分析信息并且规定其价格,首先和强制步骤是取回网络上可用的信息,并且根据它们建立“网络语料库”,即,可以运行专用计算机程序的一组资源。这些网络语料库在通用搜索引擎的情形下,或者在更小地局限于给定商业范围或者主题的情形下都是泛化的。

从网络取回信息,例如资源(网页、多媒体文件等),是一项耗时的任务。取回单个资源的时延可能是数百毫秒到秒。这种时延也是不可预测的,由于其依赖于网站和基础通信网络的健康状况。

并且,对网络上的可用资源没有全局查看。因此,为了建立这种查看,例如为了应答由搜索引擎的用户输入的查询,需要通过访问第一资源来执行迭代处理,并且接着访问在这些资源中所涉及的资源等,直到认为已经获得了对该网络的充分的查看。

在进行这个处理中,累加时延并且能够回答用户请求的最终时延是不合理的。

已经引入了网络爬虫来避免搜索引擎或者任何其他需要访问大量资源的计算机程序的这种时延。

网络爬虫是用于寻找、浏览和下载在网络中的网站上可用的资源的程序,以便构成语料库,即能够被其他程序所使用的一组资源。它们也被称作蚂蚁、机器人、网络蜘蛛……。接下来,将它们称作“网络爬虫”,或者更简称为“爬虫”。

更具体且普遍地,爬虫以访问被称作“种子”的URL(统一资源定位符)的列表开始。当爬虫访问由这些URL识别出的资源时,其识别由所述资源包含的所有URL(以超链接的形式),并且将它们增加到待访问的URL列表中。接着递归地访问这些URL,同时下载相应的资源以逐渐地建立网络爬虫。

在此,将网络抓取定义为由网络爬虫存储的数字内容。

由搜索引擎主要地使用这些网络爬虫,如图1所示。

网络爬虫WC抓取网络并建立网络抓取WCD,其是下载资源的储存库。索引程序IDP正在使用这个网络抓取WCD,以便建立索引ID。

这个索引程序IDP可以包括处理管线,其针对分析网络抓取WCD的原始资源,以将它们转换为遵循更加适于索引的格式的“对象”。例如,可以抑制某些下载资源(例如广告横幅、图像等)的部分内容,和/或查找下载资源内的某些数据,以将它们放置在待被索引的对象的专用字段内,等。

索引程序IDP也处理“对象”或者原始资源,以将与它们相关联的项目进行存储,从而集中于对查询的处理。

当用户U以搜索引擎SE而发起查询时,浏览索引ID以取回与所述查询的标准相匹配的项目。接着向用户U呈现这些项目,然后用户U可以选择下载或者不下载与所呈现的项目相对应的资源(例如,通过点击与项目相关联的超链接)。

例如通过图形建模的方法,也可以由其他计算机程序Prog(例如批量分析程序)使用网络抓取WCD。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达索系统公司,未经达索系统公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310209210.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top