[发明专利]基于CART决策树的URL分类方法及装置有效
申请号: | 201611195732.6 | 申请日: | 2016-12-21 |
公开(公告)号: | CN108228656B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 李乃鹏;胡炜 | 申请(专利权)人: | 普天信息技术有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 cart 决策树 url 分类 方法 装置 | ||
本发明涉及一种基于CART决策树的URL分类方法及装置,其中,方法包括:根据统一资源定位符URL的预设特征以及各个预设特征的类别构建用于训练CART决策树的训练集;根据各预设特征对训练集的分类能力确定CART决策树的每一节点的特征;根据训练集和预设终止条件从CART决策树的根节点开始递归每一节点,以构建CART决策树;利用构建的CART决策树对爬虫系统爬取的URL的特征进行分类,以根据分类的结果对爬取的URL进行分类。本发明实现了将CART应用于爬虫系统中,可以将网页解析得到的大量URL以主题相关度为主要特征进行分级,使得各类爬虫系统可以针对不同等级的URL地址优先爬取具有高价值的网页,在节约资源的同时,也直接减少了后续的数据清洗工作。
技术领域
本发明涉及互联网技术领域,尤其涉及一种基于CART决策树的URL分类方法及装置。
背景技术
目前,网络爬虫系统作为重要的网络数据采集工具已越来越多的被应用到各类环境中。然而运用这项技术的所有环境并不都是非常理想的,大部分的系统会面临带宽受限、爬虫结点数量有限等问题。因此,网络爬虫系统需要尽可能提高自身的采集效率以应对每天增长的海量互联网信息。
统一资源定位符(Uniform Resource Locator,URL)是网络爬虫或各种网络数据采集工具的重要组成部分。对于所有类型的爬虫,一旦爬虫开始工作,爬虫系统总是需要对新获得网页进行解析以找出适合下一跳爬取的URL,并将这些URL组成一个待爬取列表。而在实际的网页上,总是充斥着大量的各种各样的URL,这其中包括需要保存和爬取的网页,也包括大量的广告信息。而对于主题或深度等专用爬虫,还有许多主题不相关的网页。因此,爬虫系统总是需要对解析出来的URL进行适当的删减、去重甚至是分类等操作。
在分类问题中,决策树是一种常用的分类与回归方法。它可以认为是一系列if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布,其模型具有可读性,且分类速度快。图1示出了现有技术中的决策树及其与条件概率分布的示意图。其中,圆形表示内部结点,即数据特征;矩形表示叶结点,其中的k表示该叶结点所属的类。
综上,虽然所有的爬虫系统都有各自的URL去重以及防止URL重定向的机制,但是对于深度爬虫、主题爬虫或聚焦爬虫等专用爬虫而言,在爬取过程中面对的所有URL总是包括很大一部分主题不相关网页,生成的待爬取列表中属于有效的网页比例并不高。传统的做法通常需将网页下载下来,再进行主题相似度计算,进而决定是否保存相应的网页。虽然可以保证信息的完整性,但需要消耗大量的资源。而且,对于资源受限的爬虫系统而言,如需短时间内完成数据收集任务,则需要更好的爬取策略。
发明内容
针对现有网络爬虫系统爬取有效网页的比例低,且需消耗大量资源的缺陷,本发明提出如下技术方案:
一种基于CART决策树的URL分类方法,包括:
根据统一资源定位符URL的预设特征以及各个所述预设特征的类别构建用于训练CART决策树的训练集;
根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征;
根据所述训练集和预设终止条件从所述CART决策树的根节点开始递归每一节点,以构建所述CART决策树;
利用构建的所述CART决策树对爬虫系统爬取的URL的特征进行分类,以根据所述分类的结果对所述爬取的URL进行分类。
可选地,所述URL的预设特征包括以下任意一项及其组合:
URL标题字符串、URL所在HTML标记区域、URL域名、URL虚拟目录字段等、URL内链标识,URL外链标识;
相应地,所述预设特征的类别包括以下任意一项及其组合:
表示优先爬取的A类、表示一般爬取的B类以及表示不建议爬取的C类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611195732.6/2.html,转载请声明来源钻瓜专利网。