[发明专利]一种网址分类方法、装置及系统无效
申请号: | 201210134498.1 | 申请日: | 2012-05-03 |
公开(公告)号: | CN102629282A | 公开(公告)日: | 2012-08-08 |
发明(设计)人: | 贺泰华;杨建华;张广兴;文吉刚;袁小坊 | 申请(专利权)人: | 湖南神州祥网科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 410015 湖南省长沙市芙蓉中*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网址 分类 方法 装置 系统 | ||
1.一种网址分类方法,其特征在于,包括:
解析当前待分类网址中包含的网址数据信息;
提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值,并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量;
将所述空间向量置入预设的向量机,获得与所述当前待分类网址相对应的网址类别。
2.根据权利要求1所述的方法,其特征在于,在所述解析当前待分类网址的网址数据之前,所述方法还包括:
获取互联网中的网址分类数据;
将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类,生成待分类网址集合;
获取所述待分类网址集合中的待分类网址。
3.根据权利要求1或2所述的方法,其特征在于,在所述解析当前待分类网址的网址数据信息之前,所述方法还包括:
应用预设的hash算法对所述当前待分类网址进行计算,获取计算结果;
查询预设的hash数据集合中是否存在与所述计算结果相对应的hash数据,如果是,舍去所述当前待分类网址,结束当前网址分类,否则,将所述计算结果置入所述hash数据集合中。
4.根据权利要求1或2所述的方法,其特征在于,在所述解析当前待分类网址的网址数据信息之后,在所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值之前,所述方法还包括:
解析所述网址数据信息包括的网址字符串;
判断所述网址字符串是否满足预设的预分类规则,当满足时,依据所述预分类规则获取与所述当前待分类网址相对应的网址类别,结束当前网址分类。
5.根据权利要求2所述的方法,其特征在于,所述获取所述待分类网址集合中的待分类网址包括:
确定所述待分类网址集合中待分类网址的网址权值,及各个待分类网址之间的传递权值;
依据所述网址权值和所述传递权值,获取所述待分类网址集合中满足预设的网址获取规则的待分类网址。
6.根据权利要求1所述的方法,其特征在于,所述向量机采用预设分类算法依据所述空间向量获取最优分类模型,并解析出所述最优分类模型携带的类别号,将所述类别号作为与所述当前待分类网址相对应的网址类别。
7.根据权利要求1所述的方法,其特征在于,所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值包括:
解析所述网址数据信息中的至少一个HTML标签及其内容;
依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值。
8.一种网址分类装置,其特征在于,包括数据解析单元、数据提取单元和类别获取单元,其中:
所述数据解析单元,用于解析当前待分类网址中包含的网址数据信息;
所述数据提取单元,用于提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值,并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量;
所述类别获取单元,用于将所述空间向量置入预设的向量机,获得与所述当前待分类网址相对应的网址类别。
9.根据权利要求8所述的装置,其特征在于,还包括网址获取单元;
所述网址获取单元,用于获取互联网中的网址分类数据,并将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类,生成待分类网址集合,获取所述待分类网址集合中的待分类网址,触发所述数据解析单元。
10.根据权利要求8或9所述的装置,其特征在于,还包括网址去重单元;
所述网址去重单元,用于应用预设的hash算法对所述当前待分类网址进行计算,获取计算结果,查询预设的hash数据集合中是否存在与所述计算结果相对应的hash数据,如果是,舍去所述当前待分类网址,结束当前网址分类,否则,将所述计算结果置入所述hash数据集合中,触发所述数据提取单元。
11.根据权利要求8或9所述的装置,其特征在于,还包括预分类单元;
所述预分类单元,由所述数据解析单元触发,用于解析所述网址数据信息包括的网址字符串,判断所述网址字符串是否满足预设的预分类规则,当满足时,依据所述预分类规则获取与所述当前待分类网址相对应的网址类别,结束当前网址分类,否则,触发所述数据提取单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南神州祥网科技有限公司,未经湖南神州祥网科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210134498.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种旋转制粒机
- 下一篇:串行通信电路、半导体设备以及串行通信控制方法