[发明专利]官方网站确定方法和系统及官方网站的排序方法有效
申请号: | 201510378418.0 | 申请日: | 2015-07-01 |
公开(公告)号: | CN104933178B | 公开(公告)日: | 2018-09-11 |
发明(设计)人: | 付通敏 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 方挺;黄谦 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 官方网站 确定 方法 系统 | ||
本发明公开了一种官方网站确定方法及系统,其中方法包括:扫描链接库,提取包含特征文本内容的链接;将所获取的链接按照各链接所对应的域名进行聚类;从聚类后的域名中筛选符合预设条件的域名确定为官方网站;系统包括链接库扫描单元,适于扫描链接库,提取包含特征文本内容的链接;链接聚类单元,适于将所提取的链接按照链接所对应的域名进行聚类;筛选判定单元,适于从聚类后的域名中筛选符合预设条件的域名,确定为官方网站。本发明的官方网站确定方法及系统能够主动识别官方网站,整个过程自动、高效。
技术领域
本发明涉及网站识别领域,特别涉及一种官方网站确定方法和系统及官方网站的排序方法。
背景技术
官方网站,亦称官网。官方网站是公开团体主办者体现其意志想法,团体信息公开,并带有专用、权威、公开性质的一种网站。
官方网站具有权威属性,如果知道某个网站是官网,则可以在搜索引擎排序时将此网站增加权重。因此,发现一个网站是否是官方网站有着重要的意义。
目前,各大搜索引擎运营公司的这种预识别分类往往依赖于网站站长主动提出申请,告知搜索引擎运营者自己的网站为官方网站,再由搜索引擎运营者进行审核后决定该网站是否确实是官方网站,费时费力,而且这种机制始得搜索引擎也比较被动,缺少主动发现官网的机制。
发明内容
为了解决上述一个或多个技术问题,本发明提出了一种官方网站确定方法。
本发明的官方网站确定方法包括:
扫描链接库,获取包含特征文本内容的链接。
将所获取的链接按照各链接所对应的域名进行聚类。
从聚类后的域名中筛选符合预设条件的域名,确定为官方网站。
利用上述方法,实现了对官方网站的主动识别,避免了官方网站的漏识别或者延迟识别,也使官方网站不至于淹没在大量的聚合类网站中,影响用户搜索体验。
在一些实施例中,预设条件为:聚类后域名下所包含的链接的数量小于或等于设定阈值。通过设定阈值并将聚类后的域名下所包含的链接的数量与设定的阈值进行比较,能够准确的将符合预设条件的官方网站筛选出来。
当然,也可以通过域名的别的参数信息进行条件的设定,例如通过直接统计聚类后的域名下包含的特征文本的数量等等。
从聚类后的域名中筛选符合预设条件的域名包括:统计聚类后的各域名下所包含的链接的数量,并从聚类后的域名中选出所包含的链接的数量小于或等于设定的阈值的域名。
利用链接与特征文本内容一一对应的关系,通过统计聚类后的各域名下所包含的链接的数量来确定域名所对应的网站下所包含的特征文本内容的数量,再通过判断是否符合预设条件,从而精确的识别域名对应的官方网站。
作为一种实施方式,阈值根据官方网站各级页面下总共出现所述特征文本内容的次数及该次数出现的频率而设定。研究发现,官方网站各级页面下总共出现所述特征文本内容的次数是离散的,通过计算这些离散数据出现的频率,找出出现频率最高的一个数据设定为阈值,这样既兼顾了召回率也保证了准确率。
事实上,官方网站页面往往具有其代表性的特征文本内容,这里的特征文本内容为官网特征文字,而且,一般来说,官方网站这种类型的网站在各级页面下总共出现特征文本内容的数量会存在一个基本的阈值,通常不会超过该阈值。
在一些实施例中,扫描链接库,获取包含特征文本内容的链接包括:
以K条链接为一组,对链接库中的链接进行分组扫描,每扫描一组链接直接获取对应的锚文本。
判定所述锚文本中是否包括了特征文本内容,如果是则将所述锚文本对应的链接保留到目标链接库中,否则不保留。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510378418.0/2.html,转载请声明来源钻瓜专利网。