[发明专利]一种网页分类的确定方法及装置在审
申请号: | 201710326233.4 | 申请日: | 2017-05-10 |
公开(公告)号: | CN107545020A | 公开(公告)日: | 2018-01-05 |
发明(设计)人: | 张惊申;卢俞虹;任方英 | 申请(专利权)人: | 新华三信息安全技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙)11413 | 代理人: | 马敬,项京 |
地址: | 230001 安徽省合肥市高新区*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 分类 确定 方法 装置 | ||
技术领域
本申请涉及网络通信技术领域,特别是涉及一种网页分类的确定方法及装置。
背景技术
网络中的网页数量非常大,这些网页可能分别属于各种各样的类型,这些类型可以包括新闻类、教育类、体育类、购物类等。目前,网页分类可以应用于各种场景。例如,应用于网页过滤或应用于建立网页分类库等。在应用于网页过滤时,常常需要先确定网页的分类,然后根据确定的分类对网页进行过滤。
现有技术中,在确定网页分类时,可以先获得待分类网页的标题信息,然后将该标题信息与预设的分类字典进行匹配,根据匹配结果确定上述网页所归属的分类,其中,分类字典一般存储各个分类以及每个分类的关键词。
通常,采用上述方法可以较准确地确定常见网页的分类。但是,目前很多网页都把标题信息的范围描述得非常宽泛,使得这些网页的标题信息不能很好地反映网页的类型。因此,在这种情况下采用上述方法确定这些网页的分类时可能会存在一定误差,所确定的网页分类准确性不够高。
发明内容
本申请实施例的目的在于提供了一种网页分类的确定方法及装置,以提高所确定的网页分类的准确性。具体的技术方案如下。
为了达到上述目的,本申请实施例公开了一种网页分类的确定方法,所述方法包括:
确定待分类网页;
获得所述待分类网页的外链网页,其中,所述外链网页为:网页内容中存在所述待分类网页的地址的网页;
按照预设的分类方式,确定各个外链网页的参考分类;
根据所确定的各个外链网页的参考分类,确定所述待分类网页的分类。
为了达到上述目的,本申请实施例公开了一种网页分类的确定装置,所述装置包括:
网页确定模块,用于确定待分类网页;
外链获得模块,用于获得所述待分类网页的外链网页,其中,所述外链网页为:网页内容中存在所述待分类网页的地址的网页;
参考确定模块,用于按照预设的分类方式,确定各个外链网页的参考分类;
分类确定模块,用于根据所确定的各个外链网页的参考分类,确定所述待分类网页的分类。
本申请实施例提供的网页分类的确定方法及装置,可以获得待分类网页的外链网页,按照预设的分类方式确定各个外链网页的参考分类,根据所确定的各个外链网页的参考分类,确定待分类网页的分类。由于各个外链网页一般是与待分类网页相关联的网页,因此根据外链网页所归属的参考分类确定待分类网页的分类,相比于直接根据待分类网页确定网页分类,能够提高所确定的网页分类的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的网页分类的确定方法的一种流程示意图;
图2为图1中步骤S104的一种流程示意图;
图3为本申请实施例提供的网页分类的确定装置的一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种网页分类的确定方法及装置,能够提高所确定的网页分类的准确性。下面通过具体实施例,对本申请进行详细说明。
图1为本申请实施例提供的网页分类的确定方法的一种流程示意图,应用于电子设备,该电子设备可以包括路由器、交换机等网关设备,也可以包括常见的计算机、平板电脑、智能手机等设备。该方法包括如下步骤:
步骤S101:确定待分类网页。
其中,待分类网页可以是临时确定的,也可以是从预设的网页库中确定的。网页库用于存储各个网页。具体的,本实施例可以采用确定待分类网页的地址的方式确定待分类网页。其中,待分类网页的地址包括统一资源定位器(Uniform Resoure Locator,URL)地址。以下所述的网页地址均可以包括URL地址。
步骤S102:获得待分类网页的外链网页,其中,所述外链网页为:网页内容中存在所述待分类网页的地址的网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三信息安全技术有限公司,未经新华三信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710326233.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种查询故障的处理方法及处理装置
- 下一篇:一种基于可控增益的宽带直流放大器