[发明专利]一种基于时间感知的增量机器爬虫方法有效
申请号: | 201810551090.1 | 申请日: | 2018-05-31 |
公开(公告)号: | CN108763537B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 张志勇;李玉祥;赵长伟;牛丹梅;张丽丽;刘芳云;张蓝方;向菲 | 申请(专利权)人: | 河南科技大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 洛阳公信知识产权事务所(普通合伙) 41120 | 代理人: | 常晓虎 |
地址: | 471000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时间 感知 增量 机器 爬虫 方法 | ||
一种基于时间感知的增量机器爬虫方法,根据每个页面的基于初始爬行时间表T={t1,t2,...,tn}的相似性得分序列PTS和最大相似性阈值δ,将大于最大相似性阈值δ的相似性得分和对应的初始时间戳去掉,得到优化的相似性得分时间序列new_PTS和优化的爬行计划时间表new_T;如果优化的爬行计划时间表new_T的时间戳数|new_T|大于最佳爬行频次,就根据优化的相似性得分序列new_PTS得出降维后的时间感知相似性协方差矩阵,用MIQP算法得出页面的最佳爬行时间表,对发生变化的网页进行增量更新。本发明可以为目标页面制定最优的页面刷新策略,从而降低页面的刷新代价,减少数据冗余的产生,提高爬虫的效率并保证抓取资源的新鲜性。
技术领域
本发明属于互联网技术领域,具体涉及一种基于时间感知的增量机器爬虫方法,主要应用于多媒体社交网络视频资源的采集。
背景技术
伴随着大数据和Web2.0技术的兴起,多媒体社交网络(MultimediaSocialNetwork,简称MSN)上视频内容呈现爆炸式增长,丰富的视频资源为用户提供了更多更好的视频服务,同时也为用户提供了更多有价值的研究数据。但是视频页面的不断更新变化使得爬取最新最热的视频资源越来越困难,频繁的刷新页面不仅会耗费大量的资源,而且会产生大量的冗余。因此,如何在大量的视频资源中及时了解网页变化的特征,用最低的刷新代价爬取最新的视频资源,给用户提供更加优质的服务,成为当前多媒体社交网络服务的一个挑战。
一般情况下,网页是否发生变化是通过不同时间上页面之间的相似度来检测的。相似度越小,说明网页的差异度越大,网页发生了变化。通过这种方式,我们可以监控不同时间网页的变化情况,找出网页变化最大的几个时间点。在这些时间点上对变化的网页进行页面刷新。
增量爬虫技术就是使用某种页面刷新策略来确保页面副本的新颖性。其中,针对页面变化的研究是制定页面刷新策略的重点。无论是通过采样样本的方式来确定刷新时刻,还是使用基于泊松(Poisson)分布的页面刷新策略,或者是基于信息周期的刷新策略,都存在数据冗余、刷新代价大、新鲜度得不到有效保证等问题。
发明内容
本发明的目的是针对频繁重爬技术效率低,刷新代价大,数据冗余等问题,提供一种基于时间感知的增量机器爬虫方法,通过分析页面更新模式特征,结合信息精确度和信息新鲜度的指标,为发生有价值变化的网页制定最优的页面刷新策略。
为了实现上述目的,本发明采用的具体方案为:一般情况下,网页是否发生变化是通过不同时间上页面之间的相似度来检测的。相似度越小,说明网页的差异度越大,网页发生了变化。通过这种方式,我们可以监控不同时间网页的变化情况,找出网页变化最大的几个时间点。在这些时间点上对变化的网页进行页面刷新。因此本发明在K.Gupta教授的精度感知页面刷新策略的基础上增加新鲜度感知和降维思想来确定网页刷新的最优爬行时间序列,提出基于时间感知的增量爬虫算法,进一步提高增量爬虫的效率和获取信息的新鲜度。
一种基于时间感知的增量机器爬虫方法,包括如下步骤:
第一步,根据每个页面的基于初始爬行时间表T={t1,t2,...,tn}的相似性得分序列PTS和最大相似性阈值,去掉相似性得分序列PTS中大于最大相似性阈值的相似性得分,以组成优化的相似性得分序列new_PTS,并将所去掉的相似性得分对应的时间戳从初始爬行时间表中去掉,以得到优化的爬行计划时间表new_T;
第二步,如果优化的爬行计划时间表new_T的时间戳数|new_T|大于最佳爬行频次,就根据优化的相似性得分序列new_PTS得出降维后的时间感知相似性协方差矩阵;
第三步,用MIQP算法优化第二步中降维后的时间感知相似性协方差矩阵,得出页面的最佳爬行时间表,也意味着页面在最佳爬行时间表中的时间戳上将会发生有价值的变化;
第四步,根据第三步得到的页面的最佳爬行时间表,对发生变化的网页进行增量更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南科技大学,未经河南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810551090.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据库访问方法及装置
- 下一篇:一种确定兴趣点POI地理位置的方法及装置