[发明专利]一种网页数据信息的定向采集方法及装置有效
申请号: | 201010236363.7 | 申请日: | 2010-07-22 |
公开(公告)号: | CN102339290A | 公开(公告)日: | 2012-02-01 |
发明(设计)人: | 吴新丽;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 数据 信息 定向 采集 方法 装置 | ||
1.一种网页数据信息的定向采集方法,其特征在于,包括:
根据采集到的列表页对应网页的内容,抽取每个内容所在的内容页的统一资源定位符URL信息,其中所述列表页为用于数据信息采集的网页;
根据抽取的每个内容页的URL信息,及服务器中保存的已经进行了数据信息采集的每个URL信息,确定该列表页中未进行数据信息采集的URL信息的数量;
根据确定的所述列表页中未进行数据信息采集的URL信息的数量,及抽取的所述内容页的URL信息的数量,确定所述列表页当前的页面更新率;
根据所述列表页所属网站的标准更新率,确定的所述列表页当前的页面更新率,及当前的信息采集时间间隔,确定针对所述列表页当前数据信息采集与下一次数据信息采集的时间间隔,并在等待该确定的时间间隔后,进行数据信息采集。
2.如权利要求1所述的方法,其特征在于,所述确定列表页中未进行数据信息采集的URL信息包括:
根据抽取的每个内容页的URL信息,确定每个URL信息对应的标识信息;
针对确定的每个URL信息对应的标识信息,在服务器保存的已经进行了数据信息采集的每个URL信息对应的标识信息中查找,判断是否存在该确定的标识信息;
当判断不存在时,确定该标识信息对应的URL信息为该列表页中未进行数据信息采集的URL信息。
3.如权利要求2所述的方法,其特征在于,所述方法进一步包括:
根据所述未进行数据信息采集的URL信息,在对应的网页进行数据信息采集后,将所述URL信息对应的标识信息保存在所述服务器中。
4.如权利要求1所述的方法,其特征在于,确定所述网站的标准更新率包括:
根据设置的全局更新率,以及所述网站对应的权重值,确定所述网站的标准更新率。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
将采集线程划分为进行列表页队列采集的采集线程,和进行内容页队列采集的采集线程,其中列表页队列包含待采集的每个列表页的URL信息,针对列表页的采集包括抽取列表页中每个内容所在的内容页的URL信息,内容页队列包含待采集的每个内容页的URL信息,针对内容页的采集包括根据每个内容页的URL信息,获取对应网页中的数据信息;
当列表页队列中待采集的URL信息的数量与采集任务总数的比例,大于设定的比例阈值,并且内容页队列中的线程数量不小于内容页队列中所有的URL信息所属的网站的数量时,增加对列表页队列进行采集的采集线程的数量;
当列表页队列中排队等待采集的URL信息的数量与采集任务总数的比例,小于设定的比例阈值,且当前内容页队列中的线程数量小于内容页队列中所有的URL信息所属的网站的数量时,减少对列表页队列进行采集的采集线程的数量,其中采集任务总数为初始进行数据信息采集时加载的所有列表页的个数。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:Si根据
调整全局更新率,其中αRatio为1和1.5之间数值,λ0为理想状态下,列表页队列中待采集的URL信息的数量与采集任务总数的比例,λ为当前列表页队列中待采集的URL信息的数量与采集任务总数的比例,nThdNumCont为分配给内容页队列的采集线程的数量,nSiteNumCont为内容页队列中所有的URL信息所属的网站的数量。
7.如权利要求1所述的方法,其特征在于,确定针对所述列表页当前信息采集与下一次信息采集的时间间隔包括:
当列表页的当前页面更新率大于所述网站的标准更新率时,缩短当前的信息采集时间间隔,将缩短后的时间间隔确定为当前信息采集与下一次信息采集的时间间隔;
当列表页的当前页面更新率等于所述网站的标准更新率时,确定当前信息采集与下一次信息采集的时间间隔为当前的信息采集时间间隔;
当列表页的当前页面更新率小于所述网站的标准更新率时,延长当前的信息采集时间间隔,将延长后的时间间隔确定为当前信息采集与下一次信息采集的时间间隔。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010236363.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置