[发明专利]一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法有效
申请号: | 201811442700.0 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109614534B | 公开(公告)日: | 2021-08-17 |
发明(设计)人: | 李石君;黎文丹;杨济海;余伟;余放;李宇轩 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06N3/06 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 增强 聚焦 爬虫 链接 价值 预测 方法 | ||
本发明涉及一种基于深度学习和增强学习的聚焦爬虫链接价值预测方法,所述方法中网络爬虫沿着URL链接构成的网络拓扑图爬行,通过历史爬行过程的累计奖赏信息和URL特征预测URL链接的主题价值,并依据链接主题价值的大小选择下一个目标网页。本发明的创新点在与构建了可用于增强学习的链接特征向量并将深度学习和增强学习结合用于聚焦爬行过程中的链接价值预测问题。
技术领域
本发明涉及一种网络页面爬行链接预测方法。所述方法中网络爬虫沿着URL链接构成的网络拓扑图爬行,通过历史爬行过程的累计奖赏信息和URL特征预测URL链接的主题价值,并依据链接主题价值的大小选择下一个目标网页。
背景技术
随着互联网的推广和普及,网络上出现了越来越多的资源,快速定位资源所在主机的位置并获取资源成为了搜索引擎诞生的重要原因之一。从1993年至今,搜索引擎从最初的网页分类目录到关注用户个性需求的搜索,全网搜索引擎如:Yahoo!、Google、Bing、Baidu等已经完全融入人们的日常生活。全网搜索引擎搭建在大规模计算机集群之上,定期收集整个互联网中所有资源的信息并建立索引以供用户查询。全网搜索引擎在一定程度上满足了用户快速索引网络资源的需求,但它也存在消耗大量网络资源、构建成本高昂、搜索结果主题宽泛等问题。为了提高搜索结果的主题相关度,聚焦搜索引擎应运而生。聚焦搜索消耗网络资源少、构建成本低、搜索结果范围与主题密切相关。
聚焦爬虫是聚焦搜索引擎的关键模块,与通用爬虫不同之处在于,聚焦爬虫只下载与主题相关的网页以便于确定主题的精确搜索。为了更好的节约网络带宽等资源,正确且高效的定位Web网络中的主题相关网页成为聚焦爬虫面临的重要问题。经过研究者长时间的研究和实验,定位主题相关网页主要依靠主题概念的构建、网页内容主题相关性分析、链接主题相关性分析。
链接主题相关性分析是影响聚焦爬虫爬行效果的重要问题之一,其目标是在不下载链接对应目标网页的情况下预测目标网页主题相关度。由于聚焦爬虫的目标是尽可能多的只下载与目标主题相关的网页,如果能利用Web网页拓扑结构特征在链接对应目标网页下载前猜测链接内容主题相关性就可以避免下载主题无关网页。链接主题相关性分析过程中存在主题定位现象和主题孤岛问题。主题定位现象是指相连网页有很大的概率有高的文本相似度,Davison通过实验证明在Web中存在主题定位现象。随后Mencer扩展了他的研究并证实了链接内容猜想的存在性,即链接内容猜测:一个页面与链接到它的页面相似,链接集群猜想如果它们位于几个链接之内,则两个页面更有可能彼此相关。Menzcer表示相关概率保持在距相关页面三个链接的距离内,但随后迅速衰减。主题孤岛问题是指同一个主题上的页面可能不会直接链接,并且可能需要遍历一些脱离主题的页面才能访问相关页面,例如包含了大量主题相关页面链接的列表页和导航页。现有的链接主题相关度分析方法大都基于主题定位现象进行页面相关性预测并着重研究和解决主题孤岛问题。利用主题定位现象进行链接内容猜测,Best-first方法使用主题关键词集合和父页面的文本内容计算父页面主题相关度并用父页面主题相关度评估所有子页面的相关度。为了解决主题孤岛问题,Fish Search方法在Best-first方法的基础上为子页面设置了一个爬行深度用于控制和主题相关页面的最大距离。改进后的Fish Search方法使得聚焦爬虫具备一定程度的智能,能够过滤一些主题无关的页面。然而Fish Search方法在评估同一页面的所有子页面时没有充分考虑不同页面的主题差异,为此Shark Search方法在计算URL的潜在主题分数时不但继承了双亲的主题相关度而且充分利用了锚文本和锚文本的上下文。由于同一页面不同URL的主题相关度得到进一步区分,此算法比Fish Search算法的精度更高。除了利用主题定位现象评估子页面的相关度,Junghoo Cho等人还提出了从反向链接、前向链接和PageRank值等多种方面衡量页面的重要度。由于PageRank不能很好的应用与聚焦爬虫,Ling等人尝试改进PageRank算法,并加入聚焦爬虫子页面相关度评分中。为了充分利用爬行过程中产生的上下文信息,M.Diligent等人提出一种基于局部页面的上下文图模型,该方法通过从种子站点反向爬行构建以种子站点为顶点的多层上下文树,并使用分类器分类训练上下文图的每一层,在爬行过程中利用分类器判断页面距离种子站点的层次及所在图层。傅向华、冯博琴等人将主题爬虫的爬行过程看作序列动作的执行过程,利用增强学习的思想,将Web网页的链路结构作为增强学习的路径,并使用半监督贝叶斯分类器训练主题识别模型。基于强化学习的链接主题方法是一种增量自学习方法,与其他链接主题分析方法不同的是,该方法使用链接潜在价值即通过链接能找到主题页面能力作为标准判断链接主题相关度。通过学习链接潜在价值,可以更好的解决主题孤岛问题,因为包含更多到主题相关页面链接的列表页或导航页对应的潜在价值应该比较高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811442700.0/2.html,转载请声明来源钻瓜专利网。