[发明专利]一种用于网站安全监测的栏目识别方法有效
申请号: | 201610559375.0 | 申请日: | 2016-07-15 |
公开(公告)号: | CN106168977B | 公开(公告)日: | 2019-07-02 |
发明(设计)人: | 董仲舒;谷晶中;姚金龙;程杰;张阳光 | 申请(专利权)人: | 山谷网安科技股份有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F21/57 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 陈大通 |
地址: | 450000 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种用于网站安全监测的栏目识别方法,克服了现有技术中,网站建设中栏目的不断增加和重叠,对网站运行造成影响的问题。该发明中网站安全监测的栏目识别主要包括网络爬虫及URL识别、内容页特征识别和权重计算。所述权重计算含有以下步骤:经过过滤后的UrlMap,需要根据栏目名称长度、引用次数、出现日期次数、内容页特征关键字出现数量计算栏目权重,计算出栏目总权重;从UrlMap中删除权重小于60的URL,最后UrlMap中所有剩余的URL就是网站的所有栏目。该技术通过栏目识别可以从网站内容中识别出网站的栏目信息,对网站建设者来说,能够清晰看到整个网站的基本结构,方便网站的优化及管理。 | ||
搜索关键词: | 一种 用于 网站 安全 监测 栏目 识别 方法 | ||
【主权项】:
1.一种用于网站安全监测的栏目识别方法,其特征在于:网站安全监测的栏目识别主要包括网络爬虫及URL识别、内容页特征识别和权重计算;所述网络爬虫及URL识别含有以下步骤:利用网络爬虫技术,从网站首页开始,运用深度优先规则,遍历深度3层以内的所有网页URL;在内容抓取过程中,分析网站所有链接URL及属性,用数据结构UrlMap记录;记录所有URL后,利用URL过滤规则1进行初步筛选,满足URL过滤规则1的所有URL记录从UrlMap中删除;所述属性包括:标题、引用次数、出现日期次数和内容页关键词次数;所述内容页特征识别含有以下步骤:经过初步筛选的UrlMap,再根据网页内容特征,进行识别过滤;所述权重计算含有以下步骤:经过过滤后的UrlMap,需要根据栏目名称长度、引用次数、出现日期次数、内容页特征关键字出现数量计算栏目权重,计算出栏目总权重;从UrlMap中删除权重小于60的URL,最后UrlMap中所有剩余的URL就是网站的所有栏目。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山谷网安科技股份有限公司,未经山谷网安科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610559375.0/,转载请声明来源钻瓜专利网。