[发明专利]在web爬取过程期间给网站排优先级的系统和方法有效
申请号: | 200710091563.6 | 申请日: | 2007-03-28 |
公开(公告)号: | CN101046820A | 公开(公告)日: | 2007-10-03 |
发明(设计)人: | A·马库斯;I·E·冈萨雷斯;D·N·梅雷迪思;S·迪尔;D·L·布莱克曼;M·青;L·A·L·源 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所 | 代理人: | 于静;李峥 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种用于给网页的读取顺序排优先级的系统和方法。所述方法包括:由web爬取器提取要爬取的候选网页集合。所述候选网页集合中的每个网页关联于计算机网络中的网站。确定所述网站的第一网站分数是否在网站分数数据库中。如果所述第一网站分数存在于所述网站分数数据库中,则把所述第一网站分数关联于所述候选网页集合中的网页。相对于所述网页候选集合中的每个网页的相关联的网站分数,给所述候选网页集合排优先级。从所述候选网页集合检索内容。从所述内容提取超链接。把所述超链接存储在存储器单元中。 | ||
搜索关键词: | web 过程 期间 网站 优先级 系统 方法 | ||
【主权项】:
1.一种排优先级方法,包括:由计算系统中的web爬取器提取要爬取的候选网页集合,其中所述计算系统包括存储器单元,并且其中所述存储器单元包括所述web爬取器、所述候选网页集合、联机分析软件应用、脱机分析软件应用和网站分数数据库;由所述联机分析软件应用把所述候选网页集合中的每个网页关联于计算机网络中的网站;由所述联机分析软件应用联机确定所述网站的第一网站分数是否在所述网站分数数据库中;如果所述第一网站分数存在于所述网站分数数据库中,则由所述联机分析软件应用把所述网站的所述第一网站分数关联于所述候选网页集合中的相关联的网页;相对于所述网页候选集合中的每个网页的相关联的网站分数,给所述候选网页集合排优先级;由所述web爬取器通过使用所述排优先级从所述候选网页集合检索内容;由所述联机分析软件应用从所述内容提取超链接;以及把所述超链接存储在所述存储器单元中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710091563.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种无电磁辐射的电子节能灯
- 下一篇:图像显示装置