[发明专利]基于CART决策树的URL分类方法及装置有效
申请号: | 201611195732.6 | 申请日: | 2016-12-21 |
公开(公告)号: | CN108228656B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 李乃鹏;胡炜 | 申请(专利权)人: | 普天信息技术有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于CART决策树的URL分类方法及装置,其中,方法包括:根据统一资源定位符URL的预设特征以及各个预设特征的类别构建用于训练CART决策树的训练集;根据各预设特征对训练集的分类能力确定CART决策树的每一节点的特征;根据训练集和预设终止条件从CART决策树的根节点开始递归每一节点,以构建CART决策树;利用构建的CART决策树对爬虫系统爬取的URL的特征进行分类,以根据分类的结果对爬取的URL进行分类。本发明实现了将CART应用于爬虫系统中,可以将网页解析得到的大量URL以主题相关度为主要特征进行分级,使得各类爬虫系统可以针对不同等级的URL地址优先爬取具有高价值的网页,在节约资源的同时,也直接减少了后续的数据清洗工作。 | ||
搜索关键词: | 基于 cart 决策树 url 分类 方法 装置 | ||
【主权项】:
1.一种基于CART决策树的URL分类方法,其特征在于,包括:根据统一资源定位符URL的预设特征以及各个所述预设特征的类别构建用于训练CART决策树的训练集;根据各所述预设特征对所述训练集的分类能力确定所述CART决策树的每一节点的特征;根据所述训练集和预设终止条件从所述CART决策树的根节点开始递归每一节点,以构建所述CART决策树;利用构建的所述CART决策树对爬虫系统爬取的URL的特征进行分类,以根据所述分类的结果对所述爬取的URL进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普天信息技术有限公司,未经普天信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611195732.6/,转载请声明来源钻瓜专利网。