[发明专利]一种基于网络关系图的网站分类方法有效
申请号: | 201610831775.2 | 申请日: | 2016-09-19 |
公开(公告)号: | CN106446124B | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 杨珩 | 申请(专利权)人: | 成都知道创宇信息技术有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/955 |
代理公司: | 51200 成都信博专利代理有限责任公司 | 代理人: | 张辉;崔建中<国际申请>=<国际公布>= |
地址: | 610000四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于网络关系图的网站分类方法,包括以下步骤:以“安全联盟”的恶意数据作为样本数据源,获取已有的数据分类和URL数据;形成站点映射表和词频分析表、提取样本指纹特征,用于构建特征表、形成类型表;由各站点和其连接权重构成一个无向权重图;众多的站点和权重构成一个网络关系图,通过图聚类算法把一个大图分成若干个子图;各任务单元在各自的服务器上通过站点指纹特征提取器和分类器来抽取指纹特征并分类。本发明显著地提高网站分类的检测速度,区分具体类型;对于不断新增的站点,依据其与现有的连接关系来确定处理单元,有效地减少计算复杂度以及训练的迭代次数,节省计算资源。 | ||
搜索关键词: | 一种 基于 网络 关系 网站 分类 方法 | ||
【主权项】:
1.一种基于网络关系图的网站分类方法,其特征在于,包括以下步骤:/n步骤1:以“安全联盟”的恶意数据作为样本数据源,获取已有的数据分类和URL数据;/n步骤2:通过抽取样本数据的外站链接和分词器处理,形成站点映射表和词频分析表;利用站点指纹特征提取器提取样本指纹特征,构建特征表,通过抽取各指纹特征集形成类型表;/n步骤3:由各站点和其连接权重构成一个无向权重图,各站点作为网络图的节点,初始权重由相互之间的页面链接的紧密程度来确定;/n步骤4:众多的站点和权重构成一个网络关系图,通过图聚类算法把一个大图分成若干个子图;即将各子图中的节点数统计出来,在分发队列里存储子图ID和其对应的节点数,根据子图的大小平均地把各子图分发到不同的服务器上进行计算;/n步骤5:各任务单元在各自的服务器上通过站点指纹特征提取器和分类器来抽取指纹特征并分类;/n步骤6:重复前述步骤步骤1至步骤5,各数据分类结果构成一套在每次迭代之后都不断更新的网络关系图;最后,在分类结果的基础上,结合白名单数据表和传统大站点的类型表对分类结果进一步处理,避免特殊因素影响分类结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都知道创宇信息技术有限公司,未经成都知道创宇信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610831775.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种网页中验证码元素识别方法
- 下一篇:提升数据质量的方法及装置