[发明专利]一种网站重点页面的挖掘方法及装置有效

专利信息
申请号: 201210380363.3 申请日: 2012-09-29
公开(公告)号: CN103714093B 公开(公告)日: 2018-10-16
发明(设计)人: 张冲 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人: 倪志华
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网站 重点 页面 挖掘 方法 装置
【说明书】:

发明提供了一种网站重点页面的挖掘方法及装置。其中网站重点页面的挖掘方法包括:分别从网站的各网页中提取导航链接串;分别将提取的各导航链接串拆分为链接对,其中每个链接对由该导航链接串中相邻位置的两个链接构成;从各链接对中确定重点链接对,并将所述重点链接对所对应的页面作为所述网站的重点页面。通过上述方式,本发明可以提高对网站重点页面进行挖掘时的召回率及准确率。

【技术领域】

本发明涉及数据挖掘处理技术,特别涉及一种网站重点页面的挖掘方法及装置。

【背景技术】

网页权威性是搜索引擎对结果进行排序的一个重要参考因素。计算网页权威性时,将参与计算的所有网页作为一个集合,并通过集合内网页之间的链接关系迭代计算网页的权威性。但是随着互联网的发展,互联网上的网页越来越多,如果将互联网上所有网页都作为参与权威性计算的网页,则对计算系统的架构要求非常高,因此通常仅挑选各网站与外部网站存在链接关系的网页作为参与权威性计算的网页,但是现有技术的这种方式,会导致各网站内部的一些优秀网页无法得到权威性值,此外,也会影响参与计算的网页得到的权威性值的准确性。

为了改善上述问题,现有技术有一种做法,是将网站内与外部网站存在链接关系的网页,以及网站内的一些重要网页一起提取出来,作为参与网页权威性计算的网页。在现有技术中,是通过网站中网页的站内反链数量来确定网页的重要性的,例如将网站中站内反链数量大于设定阈值的网页提取出来,如果这些网页所指向网页的站内反链数量也大于设定阈值,则将这些网页及所指网页作为重点网页。但是这种现有技术的方法,召回率较低,准确性也较差。

【发明内容】

本发明所要解决的技术问题是提供一种网站重点页面的挖掘方法及装置,以提高对网站重点页面进行挖掘时的召回率及准确率。

本发明为解决技术问题而采用的技术方案是提供一种网站重点页面的挖掘方法,包括:分别从网站的各网页中提取导航链接串;分别将提取的各导航链接串拆分为链接对,其中每个链接对由该导航链接串中相邻位置的两个链接构成;从各链接对中确定重点链接对,并将所述重点链接对所对应的页面作为所述网站的重点页面。

根据本发明之一优选实施例,从各链接对中确定重点链接对的步骤包括:分别统计各链接对的出现次数,并将出现次数满足预置条件的链接对作为重点链接对。

根据本发明之一优选实施例,所述预置条件包括:出现次数大于设定值;或者出现次数的排名超过各链接对中设定比例的链接对。

根据本发明之一优选实施例,从各链接对中确定重点链接对的步骤包括:分别利用预先训练好的分类模型对各链接对进行分类,并将分为重要类别的链接对作为重点链接对,其中所述分类模型中的分类特征参数包括链接对的出现次数。

根据本发明之一优选实施例,所述分类模型中的分类特征参数进一步还包括以下至少一种:链接对中指向链接所对应的页面的出度、链接对中指向链接的深度、链接对中被指链接的深度、链接对中指向链接的深度与被指链接的深度之间的差值、链接对所对应的锚文本词数量。

根据本发明之一优选实施例,所述方法进一步包括:计算所述重点页面的网页权威性,其中所述网页权威性是搜索引擎将所述重点页面作为搜索结果返回时,对所述重点页面进行排序的依据。

本发明还提供了一种网站重点页面的挖掘装置,包括:挖掘单元,用于分别从网站的各网页中提取导航链接串;拆分单元,用于分别将提取的各导航链接串拆分为链接对,其中每个链接对由该导航链接串中相邻位置的两个链接构成;确定单元,用于从各链接对中确定重点链接对,并将所述重点链接对所对应的页面作为所述网站的重点页面。

根据本发明之一优选实施例,所述确定单元包括:统计单元,用于分别统计各链接对的出现次数,并将出现次数满足预置条件的链接对作为重点链接对。

根据本发明之一优选实施例,所述预置条件包括:出现次数大于设定值;或者出现次数的排名超过各链接对中设定比例的链接对。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210380363.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top