[发明专利]一种网址分类方法、装置及系统无效
申请号: | 201210134498.1 | 申请日: | 2012-05-03 |
公开(公告)号: | CN102629282A | 公开(公告)日: | 2012-08-08 |
发明(设计)人: | 贺泰华;杨建华;张广兴;文吉刚;袁小坊 | 申请(专利权)人: | 湖南神州祥网科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 410015 湖南省长沙市芙蓉中*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网址 分类 方法 装置 系统 | ||
技术领域
本发明涉及局域网安全管理技术领域,特别涉及一种网址分类方法、装置及系统。
背景技术
随着互联网技术的不断发展和日益普及,为了有效的组织和利用互联网上的信息资源,一般通过网址分类方法将待分类网址依据预设的网址类别进行分类。
现有的网址分类方法在进行网址分类时,需要对待分类网址对应的网页内容进行解析,通过TFIDF(Term Frequency Inverse Document Frequency,特征频率与倒文档频率)特征加权方法,依据解析的结果生成与所述待分类网址相对应的空间向量,并采用预先设置的向量机将该待分类网址进行分类,获取该待分类网址的网址类别。
其中,采用预先设置向量机将待分类网址进行分类,是指将所述待分类网址对应的空间向量置入该向量机,由该向量机采用建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中方案的方法,将所述待分类网址对应的空间向量进行分类,从而得出所述待分类网址的网址类别。
由上述可知,在采用现有的网址分类方法进行网址分类时,当待分类网址对应的网页内容的数据量较大时,采用现有的网址分类方法会造成较大的系统负载,从而使得网址分类的效率较低。
发明内容
本发明所要解决的技术问题是提供一种网址分类方法、装置及系统,用以解决采用现有技术中的网址分类方法,当待分类网址对应的网页内容的数据量较大时,导致较大的系统负载,使得网址分类效率较低的技术问题。
本申请提供了一种网址分类方法,包括:
解析当前待分类网址中包含的网址数据信息;
提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值,并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量;
将所述空间向量置入预设的向量机,获得与所述当前待分类网址相对应的网址类别。
上述方法,优选地,在所述解析当前待分类网址的网址数据之前,所述方法还包括:
获取互联网中的网址分类数据;
将所述网址分类数据中包含的待分类网址依据预设的初始分类规则进行分类,生成待分类网址集合;
获取所述待分类网址集合中的待分类网址。
上述方法,优选地,在所述解析当前待分类网址的网址数据信息之前,所述方法还包括:
应用预设的hash算法对所述当前待分类网址进行计算,获取计算结果;
查询预设的hash数据集合中是否存在与所述计算结果相对应的hash数据,如果是,舍去所述当前待分类网址,结束当前网址分类,否则,将所述计算结果置入所述hash数据集合中。
上述方法,优选地,在所述解析当前待分类网址的网址数据信息之后,在所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值之前,所述方法还包括:
解析所述网址数据信息包括的网址字符串;
判断所述网址字符串是否满足预设的预分类规则,当满足时,依据所述预分类规则获取与所述当前待分类网址相对应的网址类别,结束当前网址分类。
上述方法,优选地,所述获取所述待分类网址集合中的待分类网址包括:
确定所述待分类网址集合中待分类网址的网址权值,及各个待分类网址之间的传递权值;
依据所述网址权值和所述传递权值,获取所述待分类网址集合中满足预设的网址获取规则的待分类网址。
上述方法,优选地,所述向量机采用预设分类算法依据所述空间向量获取最优分类模型,并解析出所述最优分类模型携带的类别号,将所述类别号作为与所述当前待分类网址相对应的网址类别。
上述方法,优选地,所述提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值包括:
解析所述网址数据信息中的至少一个HTML标签及其内容;
依据所述HTML标签及其内容生成其对应的特征项及所述特征项的权值。
本申请还提供了一种网址分类装置,包括数据解析单元、数据提取单元和类别获取单元,其中:
所述数据解析单元,用于解析当前待分类网址中包含的网址数据信息;
所述数据提取单元,用于提取所述网址数据信息中所述当前待分类网址的至少一个特征项及所述特征项的权值,并将所述特征项及其权值组成与所述当前待分类网址相对应的空间向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南神州祥网科技有限公司,未经湖南神州祥网科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210134498.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种旋转制粒机
- 下一篇:串行通信电路、半导体设备以及串行通信控制方法